Ana Brainiall

Sprechen Sie per Sprache (STT → LLM → TTS Pipeline)

avancado · 12 min · Por Ana Brainiall

Die Anatomie eines Sprachgesprächs

Sprachkonversation mit KI ist eine Kette aus 3 APIs:

`
[Sie sprechen] → Mikrofon → STT (Whisper) → Text

LLM (Claude/GPT)

[Sie hören] ← Lautsprecher ← TTS (pf_dora) ← Text
`

Jede Stufe hat Latenz. Damit das Erlebnis natürlich wirkt (menschliches Gespräch), muss die Gesamtzeit unter 1,5 Sekunden bleiben. Im Jahr 2026 ist das erreichbar, erfordert jedoch sorgfältige Entwicklungsarbeit.

diagrama de fluxo com 3 blocos coloridos — STT (azul), LLM (roxo), TTS (verde) —

Realistische Latenz im Jahr 2026

Messung in einem echten Gespräch in Brainiall:

Gesamt first-token-to-speech: 1150-2150ms. Akzeptabel, wenn das Modell früh beginnt zu „sprechen" (Streaming).

Streaming ist alles

Ohne Streaming wartet jeder Schritt auf den Abschluss des vorherigen: 600ms + 900ms + 500ms = mindestens 2000ms.

Mit Streaming:
- STT kann mit der Transkription beginnen, während Sie noch sprechen (VAD — Voice Activity Detection)
- LLM beginnt mit der Token-Generierung, bevor STT abgeschlossen ist (mit einer gewissen Vorhersage der Absicht)
- TTS beginnt die ersten Wörter zu sprechen, während LLM noch die letzten generiert

Die effektive Latenz sinkt auf 400-700ms. Es wirkt natürlich.

VAD: wenn aufgehört wird zu hören

Das subtilste Problem: erkennen, wann Sie aufgehört haben zu sprechen. Stoppt man zu früh, wird der Satz abgeschnitten. Stoppt man zu spät, entsteht eine Latenz von 500ms.

Techniken:
- Absolute Stille für 600ms: einfach, aber kommt nicht mit natürlichen Denkpausen zurecht
- Silero VAD: neuronales Modell, das das Satzende mit ~95% Genauigkeit in <50ms erkennt
- Confidence from STT: Whisper gibt einen Konfidenzwert zurück; sinkt dieser, ist die Aussage wahrscheinlich beendet
- Interruption detection: Benutzer spricht erneut → bricht laufende TTS ab, startet den Zyklus neu

Brainiall verwendet Silero VAD + dynamischen Stille-Schwellenwert (passt sich an die Umgebung an).

Auswahl des Modells für Latenz vs. Qualität

Im Voice-Modus lohnt es sich in der Regel, etwas LLM-Qualität zugunsten von Geschwindigkeit zu opfern:

Für Gespräche, bei denen Qualität > Latenz gilt (z. B. detaillierter Sprachtutor), wechseln Sie zu Claude Sonnet 4.6 oder dem vollständigen GPT-5.

Anwendungsfälle, die der Voice-Modus gut löst

Häufige Fallstricke

diagrama de armadilhas — 4 situações comuns com ícones + solução; barulho (heads

Grundlegende Implementierung im Browser

Für schnelles Experimentieren:

`javascript
// 1. Aufnahme
const stream = await navigator.mediaDevices.getUserMedia({audio: true});
const mediaRecorder = new MediaRecorder(stream);

// 2. Sendet Chunks alle 500ms
mediaRecorder.ondataavailable = async (e) => {
const formData = new FormData();
formData.append('file', e.data);
const r = await fetch('/api/transcribe', {method:'POST', body: formData});
const {text} = await r.json();
// 3. Sendet an LLM, empfängt Antwort
// 4. Sendet Antwort an /api/tts, spielt Ergebnis ab
};
mediaRecorder.start(500);
`

Brainiall bietet dies bereits fertig im Chat an: Klicken Sie auf das Mikrofon und halten Sie es gedrückt.

Teste jetzt gleich

Im Brainiall-Chat klicken Sie auf das Mikrofon-Symbol und halten Sie es gedrückt. Sprechen Sie, lassen Sie los, erhalten Sie eine Antwort in Text + Audio. Pro für €5,49 beinhaltet vollständige Sprachfunktion; Business schaltet Premium-Stimmen + Priority-Latenz frei.

Kurs gefallen?

17 Pro-Kurse + 40+ KIs im Chat + Video-, Musik- und komplette Studio-Generierung freischalten.

Pro werden · €5,49/Monat

Jederzeit kündbar · Keine Verpflichtung