Transcribe horas de audio/video en cualquier idioma con precisión

iniciante · 8 min · Por Ana Brainiall

Por qué Whisper se convirtió en el estándar de STT

Whisper, lanzado por OpenAI en 2022 (open source), cambió las reglas del juego en Speech-to-Text. Fue entrenado con 680.000 horas de audio multilingüe transcrito — 10 veces más datos que cualquier modelo anterior. Eso le dio tres ventajas que los competidores aún no han superado:

1. Multilingüe robusto: excelente en 99 idiomas, incluyendo PT-BR, PT-PT y dialectos regionales
2. Tolerancia al ruido: funciona con audios que tienen música de fondo, ruido de calle o conversaciones paralelas
3. Puntuación automática: decide solo dónde colocar comas, puntos y párrafos — sin necesidad de edición

En Brainiall usamos Whisper Large v3 (el más grande y preciso), corriendo en GPU dedicada para una latencia < 15s en clips de hasta 10 minutos.

gráfico de barras comparando precisão (Word Error Rate) em PT-BR — Whisper Large

Cómo el modelo "escucha"

Whisper convierte el audio en espectrogramas Mel — una representación visual de frecuencia vs tiempo. El modelo es un Transformer encoder-decoder que trata el espectrograma como "input" y genera texto como "output", de forma muy similar a como funcionan los modelos de traducción.

El secreto está en que Whisper fue entrenado en una tarea multi-objetivo simultánea:
- Transcribir en el mismo idioma (STT)
- Traducir al inglés (STT + traducción)
- Identificar el idioma sin aviso previo
- Segmentar con timestamps

Esto significa que un único modelo resuelve transcripción + traducción + identificación — tres tareas que antes requerían tres modelos separados.

Formatos soportados y límites prácticos

Brainiall acepta:
- Formatos: mp3, mp4, wav, ogg, webm, m4a, flac, mpeg
- Tamaño máximo: 25 MB por archivo
- Duración recomendada: hasta 10 minutos por request — para audios más largos, divídelos
- Tasa de muestreo: cualquiera — será remuestreada a 16kHz internamente
- Canales: mono o estéreo — ambos funcionan (el estéreo se convierte a mono)

Para transcribir un podcast de 1 hora, divídelo en bloques de 10 minutos con ffmpeg y concatena las transcripciones al final.

Calidad según el tipo de audio

Excelente (>97% de precisión):
- Podcasts con micrófono dedicado
- Entrevistas corporativas en sala silenciosa
- Narración de video editorial
- Discursos en teleconferencia Zoom/Meet

Bueno (90-95% de precisión):
- Grabación de reunión desde laptop
- Clases grabadas con smartphone
- Vlogs filmados en exteriores tranquilos

Desafiante (<85% de precisión):
- Música cantada (Whisper lo intenta pero falla mucho con la letra)
- Audio con múltiples personas hablando al mismo tiempo
- Llamadas telefónicas comprimidas (8kHz)
- Regionalismos y jergas muy específicas

matriz visual de 4 quadrantes com exemplos de cada nível de precisão e causa — m

Trucos de prompt

Whisper acepta un initial_prompt — una cadena de texto que guía la transcripción. Úsalo para:

Vocabulario específico: "Esta es una reunión sobre cardiología con términos como angioplastia, stent, infarto de miocardio"
Nombres propios: "Las personas que hablan son Fábio Suizu y María Santos"
Estilo de formato: "Usa letras mayúsculas para títulos, párrafos separados en cada cambio de tema"
Dialecto: "Portugués brasileño con expresiones de São Paulo"

Esto puede elevar la precisión entre 3 y 5 puntos porcentuales en audios desafiantes.

Casos de uso prácticos

Subtitulado automático: transcribe + agrega timestamps + formatea en SRT
Notas de reunión: transcribe toda la llamada + pídele al LLM que la resuma
Búsqueda en videos: convierte tu archivo en texto indexable por búsqueda
Asistente en tiempo real: STT + LLM + TTS = asistente de voz completo
Accesibilidad: subtítulos automáticos para videos de capacitación corporativa

Pruébalo ahora mismo

En el chat de Brainiall, haz clic en el ícono de adjuntar archivo, envía un MP3 o MP4 y escribe "transcribe este audio". O usa la API en la ruta /api/transcribe. El plan Pro tiene un uso generoso; el plan Business incluye créditos API para automatización externa.