Erzählen Sie beliebige Texte in 9 Sprachen mit 54 neuronalen Stimmen

iniciante · 8 min · Por Ana Brainiall

Die Entwicklung von TTS in 5 Jahren

Bis 2020 klang Text-to-Speech roboterhaft — die Generation der ursprünglichen Siri. Von 2021 bis 2023 lernten wir, WaveNet- und Tacotron-Modelle zu verwenden, um natürliche Sprache zu erreichen. Ab 2024 brachten Modelle einer neuen Größenordnung (XTTS, Kokoro, VALL-E) drei entscheidende Fortschritte:

1. Geringe Größe: Kokoro hat nur 82 Millionen Parameter — 100× kleiner als die alten Giganten, aber gleiche Qualität
2. Echtzeit-Inferenz: RTF (Real-Time Factor) < 0,2 auf einer Einsteiger-GPU; das heißt, 1 Minute Audio wird in weniger als 12 Sekunden synthetisiert
3. Natürliche Prosodie: Intonation, Betonung, Rhythmus — nicht mehr „monoton mit Komma

gráfico de timeline mostrando 5 marcos — 2020 Siri robótica, 2021 Tacotron, 2023

Die 9 Sprachen von Brainiall

Brasilianisches Portugiesisch: pf_dora (weiblich, erwachsen), pm_alex, pm_santa (männlich)
Amerikanisches Englisch: af_heart, af_bella, af_nicole, am_adam, am_michael
Britisches Englisch: bf_emma, bm_george, bm_lewis
Spanisch: ef_lucia, em_carlos
Französisch: ff_juliette, fm_louis
Deutsch: gf_sophia, gm_max
Italienisch: if_chiara, im_marco
Mandarin-Chinesisch: zf_mei, zm_wei
Japanisch: jf_haruka, jm_kenji

Jede Stimme hat ihre eigene Persönlichkeit: pf_dora ist klar und lehrreich (wir verwenden sie in den Kursen der Brainiall Academy), am_adam ist professionell und geschäftlich, af_heart hat einen emotionaleren Ton.

Wie man die richtige Stimme für den Kontext auswählt

E-Learning / Tutorials: neutrale und artikulierte Stimmen (pf_dora, am_adam)
Marketing / Werbung: dynamischere und ausdrucksstärkere Stimmen (af_heart, am_michael)
Hörbücher: warme und erzählerische Stimmen (af_bella, bm_george)
Nachrichten: formelle und klare Stimmen (pm_santa, am_adam)
Chatbots / Assistenten: freundliche und schnelle Stimmen (af_nicole, pm_alex)

Praktischer Tipp: Generieren Sie 3–5 Sekunden Testaufnahmen mit 3 Kandidatenstimmen, bevor Sie einen langen Text synthetisieren. Die Präferenz ist immer subjektiv.

Geschwindigkeit und Tonhöhe steuern

Die nützlichsten Parameter:

speed: 0,25 bis 4,0 — Standard 1,0. Verwende 0,85 für Hörbücher (ruhige Erzählung), 1,15 für Bildungsinhalte, 1,3+ nur für schnelle Vorschauen
format: mp3, wav, ogg. MP3 ist Standard (beste Komprimierung); WAV für den Fall, dass du das Audio danach bearbeiten möchtest; OGG für Web-Streaming
pitch: einige Modelle akzeptieren dies, Anpassung in Halbtönen (-5 bis +5)

Gehe nicht in Extreme: speed > 2,0 wird unverständlich, < 0,5 klingt künstlich.

Technische und Nutzungsgrenzen

Maximum pro Request: 4000 Zeichen — ungefähr 4 Absätze. Lange Texte erfordern Chunking
Gemischte Sprachen: Jede Stimme spricht ihre Hauptsprache gut; Mischen (z. B. PT-Text mit englischen Wörtern) kann zu zögernder Aussprache führen
Fremdsprachige Eigennamen: Schreiben Sie diese im Prompt phonetisch — „Maicrosoft" statt „Microsoft"
Interpunktion ist wichtig: Kommas = kurze Pause, Auslassungspunkte = lange Pause, Punkt = Tonabfall
Emojis: Die meisten Modelle ignorieren sie oder lesen sie als Wort („lächelnd") — entfernen Sie sie vorher

guia visual de pontuação e efeito sonoro — cada sinal com ícone e descrição de i

Praktische Anwendungsfälle

Kursvertonung: wie wir es in der Academy machen — schnell, günstig, konsistent
Heimische Hörbücher: konvertieren Sie PDFs/EPUBs in MP3, um sie im Auto zu hören
Barrierefreiheit: konvertieren Sie Ihren Blog in Audio für Leser mit Leseschwierigkeiten
Automatische Podcasts: konvertieren Sie Newsletter in das Podcast-Format zur Verbreitung
Stimme für Videos: ersetzen Sie teures Voice-over durch TTS, wenn das Timing nicht kritisch ist

Teste jetzt gleich

Im Brainiall-Chat senden Sie eine Nachricht und klicken Sie auf das Symbol 🔊 in der Antwort, um es mit TTS anzuhören. Oder über die Route /api/tts via API. Der Pro-Plan €5,49 ermöglicht eine großzügige Nutzung von TTS; Business €18 beinhaltet API-Guthaben für externe Integrationen.