Transcreva horas de áudio/vídeo em PT-BR com precisão

iniciante · 8 min · Por Ana Brainiall

Por que Whisper virou o padrão de STT

O Whisper, lançado pela OpenAI em 2022 (open source), mudou o jogo do Speech-to-Text. Ele foi treinado em 680.000 horas de áudio multilíngue transcrito — 10x mais dados que qualquer modelo anterior. Isso deu a ele três vantagens que competidores ainda não superam:

1. Multilíngue robusto: excelente em 99 idiomas, incluindo PT-BR, PT-PT, e dialetos regionais
2. Tolerância a ruído: funciona em áudios com música de fundo, barulho de rua, conversas paralelas
3. Pontuação automática: decide sozinho onde colocar vírgulas, pontos, parágrafos — não precisa editar

Na Brainiall usamos o Whisper Large v3 (o maior, mais preciso), rodando em GPU dedicada para latência < 15s em clips de até 10 minutos.

gráfico de barras comparando precisão (Word Error Rate) em PT-BR — Whisper Large

Como o modelo "escuta"

Whisper converte áudio em espectrogramas Mel — uma representação visual da frequência vs tempo. O modelo é um Transformer encoder-decoder que trata o espectrograma como "input" e gera texto como "output", muito similar a como modelos de tradução funcionam.

O pulo do gato é que Whisper foi treinado em uma tarefa multi-objetivo simultânea:
- Transcrever no mesmo idioma (STT)
- Traduzir para inglês (STT + tradução)
- Identificar o idioma sem aviso prévio
- Segmentar com timestamps

Isso significa que um único modelo resolve transcrição + tradução + identificação — três tarefas anteriormente feitas por três modelos separados.

🎧 Ouça a narração completa (vídeo demo em produção)

Formatos suportados e limites práticos

A Brainiall aceita:
- Formatos: mp3, mp4, wav, ogg, webm, m4a, flac, mpeg
- Tamanho máximo: 25 MB por arquivo
- Duração recomendada: até 10 minutos por request — para áudios maiores, divida
- Taxa de amostragem: qualquer — será reamostrada para 16kHz internamente
- Canais: mono ou estéreo — ambos OK (estéreo é convertido para mono)

Para transcrever um podcast de 1 hora, divida em blocos de 10 minutos via ffmpeg e concatene as transcrições depois.

Qualidade por tipo de áudio

Excelente (>97% precisão):
- Podcasts com microfone dedicado
- Entrevistas corporativas em sala silenciosa
- Narração de vídeo editorial
- Discursos em teleconferência Zoom/Meet

Bom (90-95% precisão):
- Gravação de reunião via laptop
- Aulas gravadas em smartphone
- Vlogs filmados em ambiente externo calmo

Desafiador (<85% precisão):
- Música cantada (Whisper tenta mas erra muito letra)
- Áudio com múltiplas pessoas falando ao mesmo tempo
- Chamadas telefônicas comprimidas (8kHz)
- Regionalismos e gírias muito específicas

matriz visual de 4 quadrantes com exemplos de cada nível de precisão e causa — m

Truques de prompt

Whisper aceita um initial_prompt — uma string que guia a transcrição. Use para:

Vocabulário específico: "Esta é uma reunião sobre cardiologia incluindo termos como angioplastia, stent, infarto do miocárdio"
Nomes próprios: "As pessoas falando são Fábio Suizu e Maria Santos"
Estilo de formatação: "Use letras maiúsculas para títulos, parágrafos separados a cada mudança de tópico"
Dialeto: "Português brasileiro com expressões paulistanas"

Isso pode elevar a precisão em 3-5 pontos percentuais em áudios desafiadores.

Casos de uso práticos

Legendagem automática: transcreva + coloque timestamps + formate SRT
Notas de reunião: transcreva a chamada inteira + peça ao LLM para resumir
Pesquisa em vídeos: converta seu arquivo em texto indexável por busca
Assistente em tempo real: STT + LLM + TTS = assistente de voz completo
Acessibilidade: legendas automáticas para vídeos de treinamento corporativo

Teste agora mesmo

No chat Brainiall, clique no clip de anexar arquivo, envie um MP3 ou MP4 e peça "transcreva este áudio". Ou via API na rota /api/transcribe. Plano Pro R$29 tem uso generoso; Business inclui créditos API para automação externa.