Narrez n'importe quel texte en 9 langues avec 54 voix neurales

iniciante · 8 min · Por Ana Brainiall

L'évolution du TTS en 5 ans

Jusqu'en 2020, le Text-to-Speech sonnait robotique — c'était l'ère de la Siri originale. De 2021 à 2023, nous avons appris à utiliser les modèles WaveNet et Tacotron pour atteindre une voix naturelle. À partir de 2024, des modèles d'une toute nouvelle envergure (XTTS, Kokoro, VALL-E) ont apporté trois avancées décisives :

1. Taille réduite : Kokoro ne compte que 82 millions de paramètres — 100× plus petit que les anciens géants, pour une qualité identique
2. Inférence en temps réel : RTF (Real-Time Factor) < 0.2 sur un GPU d'entrée de gamme ; autrement dit, 1 minute d'audio est synthétisée en moins de 12 secondes
3. Prosodie naturelle : intonation, emphase, rythme — fini le "monotone avec virgule"

gráfico de timeline mostrando 5 marcos — 2020 Siri robótica, 2021 Tacotron, 2023

Les 9 langues de Brainiall

Portugais brésilien : pf_dora (féminine adulte), pm_alex, pm_santa (masculines)
Anglais américain : af_heart, af_bella, af_nicole, am_adam, am_michael
Anglais britannique : bf_emma, bm_george, bm_lewis
Espagnol : ef_lucia, em_carlos
Français : ff_juliette, fm_louis
Allemand : gf_sophia, gm_max
Italien : if_chiara, im_marco
Chinois mandarin : zf_mei, zm_wei
Japonais : jf_haruka, jm_kenji

Chaque voix a sa propre personnalité : pf_dora est claire et pédagogique (nous l'utilisons dans les cours de la Brainiall Academy), am_adam est professionnel et corporate, af_heart a une tonalité plus émotionnelle.

Comment choisir la bonne voix selon le contexte

E-learning / tutoriels : voix neutres et bien articulées (pf_dora, am_adam)
Marketing / publicités : voix dynamiques et expressives (af_heart, am_michael)
Livres audio : voix chaleureuses et narratives (af_bella, bm_george)
Actualités : voix formelles et claires (pm_santa, am_adam)
Chatbots / assistants : voix conviviales et fluides (af_nicole, pm_alex)

Conseil pratique : générez 3 à 5 secondes de test avec 3 voix candidates avant de synthétiser un texte long. La préférence reste toujours subjective.

Contrôler la vitesse et le ton

Les paramètres les plus utiles :

speed : de 0.25 à 4.0 — valeur par défaut 1.0. Utilisez 0.85 pour les livres audio (narration apaisée), 1.15 pour le contenu éducatif, 1.3+ uniquement pour des aperçus rapides
format : mp3, wav, ogg. MP3 est la valeur par défaut (meilleure compression) ; WAV si vous comptez éditer l'audio ensuite ; OGG pour le streaming web
pitch : certains modèles l'acceptent, ajustez en demi-tons (-5 à +5)

Évitez les extrêmes : speed > 2.0 devient incompréhensible, < 0.5 sonne artificiel.

Limites techniques et d'utilisation

Maximum par requête : 4 000 caractères — soit environ 4 paragraphes. Les textes longs nécessitent un découpage (chunking)
Langues mixtes : chaque voix excelle dans sa langue principale ; mélanger les langues (ex : texte en portugais avec des mots en anglais) peut produire une prononciation hésitante
Noms propres étrangers : écrivez-les phonétiquement dans le prompt — "Maïcrosoft" plutôt que "Microsoft"
La ponctuation compte : virgule = pause courte, points de suspension = pause longue, point final = baisse de ton
Emojis : la plupart des modèles les ignorent ou les lisent comme un mot ("souriant") — supprimez-les avant la synthèse

guia visual de pontuação e efeito sonoro — cada sinal com ícone e descrição de i

Cas d'usage concrets

Narration de cours : comme nous le faisons à l'Academy — rapide, économique et cohérent
Livres audio maison : convertissez vos PDF/EPUB en MP3 pour les écouter en voiture
Accessibilité : transformez votre blog en audio pour les lecteurs ayant des difficultés de lecture
Podcasts automatiques : convertissez vos newsletters en format podcast pour la distribution
Voix pour vidéos : remplacez la voix off coûteuse par du TTS lorsque le timing n'est pas critique

Testez dès maintenant

Dans le chat Brainiall, envoyez un message et cliquez sur l'icône 🔊 dans la réponse pour l'écouter avec TTS. Ou via la route /api/tts par API. Le plan Pro à 29 R$ offre une utilisation généreuse du TTS ; le plan Business à 99 R$ inclut des crédits API pour les intégrations externes.