Narre qualquer texto em 9 idiomas com 54 vozes neurais

iniciante · 8 min · Por Ana Brainiall

A evolução do TTS em 5 anos

Até 2020, Text-to-Speech soava robótico — a geração da Siri original. De 2021 a 2023, aprendemos a usar modelos WaveNet e Tacotron para chegar em voz natural. De 2024 em diante, modelos de uma escala nova (XTTS, Kokoro, VALL-E) trouxeram três avanços decisivos:

1. Tamanho pequeno: Kokoro tem apenas 82 milhões de parâmetros — 100× menor que os gigantes antigos, mas mesma qualidade
2. Inferência em tempo real: RTF (Real-Time Factor) < 0.2 em uma GPU de entrada; ou seja, 1 minuto de áudio é sintetizado em menos de 12 segundos
3. Prosódia natural: entonação, ênfase, ritmo — não mais "monótono com vírgula"

gráfico de timeline mostrando 5 marcos — 2020 Siri robótica, 2021 Tacotron, 2023

Os 9 idiomas da Brainiall

Português brasileiro: pf_dora (feminina adulta), pm_alex, pm_santa (masculinas)
Inglês americano: af_heart, af_bella, af_nicole, am_adam, am_michael
Inglês britânico: bf_emma, bm_george, bm_lewis
Espanhol: ef_lucia, em_carlos
Francês: ff_juliette, fm_louis
Alemão: gf_sophia, gm_max
Italiano: if_chiara, im_marco
Chinês mandarim: zf_mei, zm_wei
Japonês: jf_haruka, jm_kenji

Cada voz tem sua personalidade: pf_dora é clara e educativa (usamos nos cursos da Brainiall Academy), am_adam é profissional corporativo, af_heart tem tom mais emocional.

Como escolher a voz certa para o contexto

E-learning / tutoriais: vozes neutras e articuladas (pf_dora, am_adam)
Marketing / anúncios: vozes mais dinâmicas e expressivas (af_heart, am_michael)
Audiobooks: vozes quentes e narrativas (af_bella, bm_george)
Notícias: vozes formais e claras (pm_santa, am_adam)
Chatbots / assistentes: vozes friendly e rápidas (af_nicole, pm_alex)

Dica prática: gere 3-5 segundos de teste com 3 vozes candidatas antes de sintetizar um texto longo. A preferência é sempre subjetiva.

🎧 Ouça a narração completa (vídeo demo em produção)

Controlando velocidade e tom

Os parâmetros mais úteis:

speed: 0.25 a 4.0 — default 1.0. Use 0.85 para audiobooks (narração calma), 1.15 para conteúdo educativo, 1.3+ só para prévias rápidas
format: mp3, wav, ogg. MP3 é default (melhor compressão); WAV para quando você vai editar o áudio depois; OGG para streaming web
pitch: alguns modelos aceitam, ajuste em semitons (-5 a +5)

Não vá a extremos: speed > 2.0 fica incompreensível, < 0.5 fica artificial.

Limites técnicos e de uso

Máximo por request: 4000 caracteres — aproximadamente 4 parágrafos. Textos longos requerem chunking
Idiomas mistos: cada voz fala bem seu idioma principal; misturar (ex: texto PT com palavras em inglês) pode sair com pronúncia hesitante
Nomes próprios estrangeiros: pronuncie foneticamente no prompt — "Maicrosoft" em vez de "Microsoft"
Pontuação importa: vírgulas = pausa curta, reticências = pausa longa, ponto final = queda de tom
Emojis: a maioria dos modelos ignora ou lê como palavra ("sorrindo") — remova antes

guia visual de pontuação e efeito sonoro — cada sinal com ícone e descrição de i

Casos de uso práticos

Narração de cursos: como fazemos na Academy — rápido, barato, consistente
Audiolivros caseiros: converta PDFs/EPUBs em MP3 para ouvir no carro
Acessibilidade: converta seu blog em áudio para leitores com dificuldade de leitura
Podcasts automáticos: converta newsletters em formato podcast para distribuição
Voz para vídeos: substitua voice-over caro por TTS quando timing não é crítico

Teste agora mesmo

No chat Brainiall, envie uma mensagem e clique no ícone 🔊 na resposta para ouvir com TTS. Ou na rota /api/tts via API. Plano Pro R$29 permite uso generoso de TTS; Business R$99 inclui créditos API para integrações externas.