Narra cualquier texto en 9 idiomas con 54 voces neurales

iniciante · 8 min · Por Ana Brainiall

La evolución del TTS en 5 años

Hasta 2020, el Text-to-Speech sonaba robótico — la era de la Siri original. Entre 2021 y 2023, aprendimos a usar modelos WaveNet y Tacotron para lograr una voz natural. A partir de 2024, modelos de una escala completamente nueva (XTTS, Kokoro, VALL-E) trajeron tres avances decisivos:

1. Tamaño reducido: Kokoro tiene apenas 82 millones de parámetros — 100× más pequeño que los gigantes de antes, con la misma calidad
2. Inferencia en tiempo real: RTF (Real-Time Factor) < 0.2 en una GPU de entrada; es decir, 1 minuto de audio se sintetiza en menos de 12 segundos
3. Prosodia natural: entonación, énfasis, ritmo — nada de ese tono "monótono con coma"

gráfico de timeline mostrando 5 marcos — 2020 Siri robótica, 2021 Tacotron, 2023

Los 9 idiomas de Brainiall

Portugués brasileño: pf_dora (femenina adulta), pm_alex, pm_santa (masculinas)
Inglés americano: af_heart, af_bella, af_nicole, am_adam, am_michael
Inglés británico: bf_emma, bm_george, bm_lewis
Español: ef_lucia, em_carlos
Francés: ff_juliette, fm_louis
Alemán: gf_sophia, gm_max
Italiano: if_chiara, im_marco
Chino mandarín: zf_mei, zm_wei
Japonés: jf_haruka, jm_kenji

Cada voz tiene su propia personalidad: pf_dora es clara y educativa (la usamos en los cursos de Brainiall Academy), am_adam tiene un perfil profesional corporativo y af_heart transmite un tono más emocional.

Cómo elegir la voz adecuada según el contexto

E-learning / tutoriales: voces neutras y bien articuladas (pf_dora, am_adam)
Marketing / anuncios: voces más dinámicas y expresivas (af_heart, am_michael)
Audiolibros: voces cálidas y narrativas (af_bella, bm_george)
Noticias: voces formales y claras (pm_santa, am_adam)
Chatbots / asistentes: voces amigables y ágiles (af_nicole, pm_alex)

Consejo práctico: genera 3-5 segundos de prueba con 3 voces candidatas antes de sintetizar un texto largo. La preferencia siempre es subjetiva.

Control de velocidad y tono

Los parámetros más útiles:

speed: de 0.25 a 4.0 — valor por defecto 1.0. Usa 0.85 para audiolibros (narración tranquila), 1.15 para contenido educativo, 1.3+ solo para vistas previas rápidas
format: mp3, wav, ogg. MP3 es el formato por defecto (mejor compresión); WAV cuando vayas a editar el audio después; OGG para streaming web
pitch: algunos modelos lo admiten, ajústalo en semitonos (-5 a +5)

Evita los extremos: con speed > 2.0 el audio se vuelve incomprensible, y con < 0.5 suena artificial.

Límites técnicos y de uso

Máximo por solicitud: 4000 caracteres — aproximadamente 4 párrafos. Los textos largos requieren chunking
Idiomas mezclados: cada voz rinde mejor en su idioma principal; mezclar (por ejemplo, texto en español con palabras en inglés) puede generar una pronunciación vacilante
Nombres propios extranjeros: escríbelos fonéticamente en el prompt — "Maicrosoft" en lugar de "Microsoft"
La puntuación importa: comas = pausa corta, puntos suspensivos = pausa larga, punto final = caída de tono
Emojis: la mayoría de los modelos los ignora o los lee como palabra ("sonriendo") — elimínalos antes de sintetizar

guia visual de pontuação e efeito sonoro — cada sinal com ícone e descrição de i

Casos de uso prácticos

Narración de cursos: como hacemos en la Academy — rápido, económico y consistente
Audiolibros caseros: convierte PDFs/EPUBs en MP3 para escuchar en el coche
Accesibilidad: convierte tu blog en audio para lectores con dificultades de lectura
Podcasts automáticos: transforma newsletters en formato podcast para su distribución
Voz para videos: reemplaza el costoso voice-over por TTS cuando el timing no es crítico

Pruébalo ahora mismo

En el chat de Brainiall, envía un mensaje y haz clic en el ícono 🔊 de la respuesta para escucharlo con TTS. También puedes hacerlo a través de la ruta /api/tts vía API. El plan Pro permite un uso generoso de TTS; el plan Business incluye créditos API para integraciones externas.