Sprechen Sie per Sprache (STT → LLM → TTS Pipeline)

avancado · 12 min · Por Ana Brainiall

Die Anatomie eines Sprachgesprächs

Sprachkonversation mit KI ist eine Kette aus 3 APIs:

`
[Sie sprechen] → Mikrofon → STT (Whisper) → Text
↓
LLM (Claude/GPT)
↓
[Sie hören] ← Lautsprecher ← TTS (pf_dora) ← Text
`

Jede Stufe hat Latenz. Damit das Erlebnis natürlich wirkt (menschliches Gespräch), muss die Gesamtzeit unter 1,5 Sekunden bleiben. Im Jahr 2026 ist das erreichbar, erfordert jedoch sorgfältige Entwicklungsarbeit.

diagrama de fluxo com 3 blocos coloridos — STT (azul), LLM (roxo), TTS (verde) —

Realistische Latenz im Jahr 2026

Messung in einem echten Gespräch in Brainiall:

Audioaufnahme (Mikrofon → WAV): ~100ms (abhängig von der Hardware)
STT (Whisper Large v3): 300-600ms für einen Satz von 3-5s
LLM (Claude Haiku für Geschwindigkeit): 400-900ms erstes Token
TTS (pf_dora via unified-API): 300-500ms für 3-5s Audio
Wiedergabe (Lautsprecher-Latenz): ~50ms

Gesamt first-token-to-speech: 1150-2150ms. Akzeptabel, wenn das Modell früh beginnt zu „sprechen" (Streaming).

Streaming ist alles

Ohne Streaming wartet jeder Schritt auf den Abschluss des vorherigen: 600ms + 900ms + 500ms = mindestens 2000ms.

Mit Streaming:
- STT kann mit der Transkription beginnen, während Sie noch sprechen (VAD — Voice Activity Detection)
- LLM beginnt mit der Token-Generierung, bevor STT abgeschlossen ist (mit einer gewissen Vorhersage der Absicht)
- TTS beginnt die ersten Wörter zu sprechen, während LLM noch die letzten generiert

Die effektive Latenz sinkt auf 400-700ms. Es wirkt natürlich.

VAD: wenn aufgehört wird zu hören

Das subtilste Problem: erkennen, wann Sie aufgehört haben zu sprechen. Stoppt man zu früh, wird der Satz abgeschnitten. Stoppt man zu spät, entsteht eine Latenz von 500ms.

Techniken:
- Absolute Stille für 600ms: einfach, aber kommt nicht mit natürlichen Denkpausen zurecht
- Silero VAD: neuronales Modell, das das Satzende mit ~95% Genauigkeit in <50ms erkennt
- Confidence from STT: Whisper gibt einen Konfidenzwert zurück; sinkt dieser, ist die Aussage wahrscheinlich beendet
- Interruption detection: Benutzer spricht erneut → bricht laufende TTS ab, startet den Zyklus neu

Brainiall verwendet Silero VAD + dynamischen Stille-Schwellenwert (passt sich an die Umgebung an).

Auswahl des Modells für Latenz vs. Qualität

Im Voice-Modus lohnt es sich in der Regel, etwas LLM-Qualität zugunsten von Geschwindigkeit zu opfern:

Claude Haiku 4.5: ~400ms erstes Token, direkte Antworten, R$ 2/1M Tokens
GPT-5 mini: ~350ms, kreativer als Haiku, R$ 3/1M Tokens
Gemini 3 Flash: ~250ms, ausgezeichnet für kurze Antworten, R$ 2/1M Tokens

Für Gespräche, bei denen Qualität > Latenz gilt (z. B. detaillierter Sprachtutor), wechseln Sie zu Claude Sonnet 4.6 oder dem vollständigen GPT-5.

Anwendungsfälle, die der Voice-Modus gut löst

Konversationstraining in Sprachen: Üben Sie Englisch mit einer KI zu sprechen, die natürlich antwortet
Hands-free-Assistent: beim Fahren, Kochen, Sport treiben
Barrierefreiheit: Personen mit Schwierigkeiten beim Tippen
Brainstorming beim Spazierengehen: Ideen sprechen statt schreiben
Nachhilfe: Frage + schnelle Antwort, natürlicherer didaktischer Fluss
Unternehmen — Telefonservice: dumme Sprachdialogsysteme durch natürliche Konversation ersetzen

Häufige Fallstricke

Hintergrundgeräusche: Umgebungsaufnahme lässt VAD versagen; verwenden Sie ein Headset oder ein Richtmikrofon
Echo des eigenen TTS: Wenn der Lautsprecher der Laptop-Lautsprecher ist, kann das Mikrofon den TTS aufnehmen und zurücktranskribieren; verwenden Sie ein Headset
Überlappende Sprache: Benutzer unterbricht, System reagiert langsam = Frustration; schnelle Abbruchfunktion implementieren
Wahrgenommene vs. tatsächliche Latenz: Eine Latenz von 1s wirkt bei Text akzeptabel, bei Sprache jedoch langsam; optimieren Sie auf <500ms wenn möglich

diagrama de armadilhas — 4 situações comuns com ícones + solução; barulho (heads

Grundlegende Implementierung im Browser

Für schnelles Experimentieren:

`javascript
// 1. Aufnahme
const stream = await navigator.mediaDevices.getUserMedia({audio: true});
const mediaRecorder = new MediaRecorder(stream);

// 2. Sendet Chunks alle 500ms
mediaRecorder.ondataavailable = async (e) => {
const formData = new FormData();
formData.append('file', e.data);
const r = await fetch('/api/transcribe', {method:'POST', body: formData});
const {text} = await r.json();
// 3. Sendet an LLM, empfängt Antwort
// 4. Sendet Antwort an /api/tts, spielt Ergebnis ab
};
mediaRecorder.start(500);
`

Brainiall bietet dies bereits fertig im Chat an: Klicken Sie auf das Mikrofon und halten Sie es gedrückt.

Teste jetzt gleich

Im Brainiall-Chat klicken Sie auf das Mikrofon-Symbol und halten Sie es gedrückt. Sprechen Sie, lassen Sie los, erhalten Sie eine Antwort in Text + Audio. Pro für €5,49 beinhaltet vollständige Sprachfunktion; Business schaltet Premium-Stimmen + Priority-Latenz frei.