Sesli Konuşun (STT → LLM → TTS pipeline)

avancado · 12 min · Por Ana Brainiall

Sesli bir konuşmanın anatomisi

Yapay zeka ile sesli konuşma, 3 API'den oluşan bir zincirdir:

`
[Siz konuşursunuz] → Mikrofon → STT (Whisper) → metin
↓
LLM (Claude/GPT)
↓
[Siz duyarsınız] ← Hoparlör ← TTS (pf_dora) ← metin
`

Her adımın bir gecikmesi vardır. Deneyimin doğal hissettirmesi (insan konuşması gibi) için toplam sürenin 1,5 saniyenin altında kalması gerekir. 2026'da bu ulaşılabilir bir hedef olmakla birlikte dikkatli bir mühendislik gerektirmektedir.

diagrama de fluxo com 3 blocos coloridos — STT (azul), LLM (roxo), TTS (verde) —

2026'da gerçekçi gecikme süreleri

Brainiall'daki gerçek konuşmada yapılan ölçümler:

Ses yakalama (mikrofon → WAV): ~100ms (donanıma bağlı)
STT (Whisper Large v3): 3-5 saniyelik cümle için 300-600ms
LLM (hız için Claude Haiku): ilk token için 400-900ms
TTS (unified-api üzerinden pf_dora): 3-5 saniyelik ses için 300-500ms
Oynatma (hoparlör gecikmesi): ~50ms

İlk tokenden sese toplam süre: 1150-2150ms. Model erken "konuşmaya" başlarsa (streaming) bu kabul edilebilir bir değerdir.

Streaming her şeydir

Streaming olmadan her adım bir öncekinin bitmesini bekler: 600ms + 900ms + 500ms = minimum 2000ms.

Streaming ile:
- STT, siz henüz konuşurken transkripsiyon yapmaya başlayabilir (VAD — Voice Activity Detection)
- LLM, STT tamamlanmadan token üretmeye başlar (niyet tahminiyle)
- TTS, LLM son kelimeleri üretirken ilk kelimeleri seslendirmeye başlar

Efektif gecikme 400-700ms'ye düşer. Doğal hissettirir.

VAD: dinlemeyi ne zaman durdurmak gerekir

En ince sorun: konuşmayı bitirdiğinizi tespit etmek. Çok erken kesilirse cümleniz yarıda kalır. Çok geç kesilirse 500ms gecikme eklenir.

Teknikler:
- 600ms mutlak sessizlik: basit ama düşünme sırasındaki doğal duraklamaları kaldıramaz
- Silero VAD: cümle sonunu <50ms içinde ~%95 doğrulukla tespit eden sinir ağı modeli
- STT'den güven skoru: Whisper güven değeri döndürür; düşerse konuşma muhtemelen bitmiştir
- Kesinti tespiti: kullanıcı tekrar konuşmaya başlar → devam eden TTS iptal edilir, döngü yeniden başlar

Brainiall, Silero VAD ve dinamik sessizlik eşiği kullanır (ortama göre otomatik ayarlanır).

Gecikme ve kalite için model seçimi

Sesli modda genellikle hız kazanmak için LLM kalitesinden biraz ödün vermek mantıklıdır:

Claude Haiku 4.5: ~400ms ilk token, doğrudan yanıtlar, ₺2/1M token
GPT-5 mini: ~350ms, Haiku'dan daha yaratıcı, ₺3/1M token
Gemini 3 Flash: ~250ms, kısa yanıtlar için mükemmel, ₺2/1M token

Kalitenin gecikmeden önemli olduğu konuşmalar için (örn: ayrıntılı dil öğretmeni), Claude Sonnet 4.6 veya tam GPT-5'e geçin.

Sesli modun iyi çözdüğü kullanım senaryoları

Dil konuşma pratiği: doğal yanıt veren yapay zeka ile İngilizce konuşma alıştırması yapın
Eller serbest asistan: araba kullanırken, yemek pişirirken, egzersiz yaparken
Erişilebilirlik: yazmakta güçlük çeken kişiler için
Yürüyüşte beyin fırtınası: yazmak yerine konuşarak fikir kaydetme
Özel ders: soru ve hızlı yanıt, daha doğal bir öğretim akışı
Kurumsal — telefon müşteri hizmetleri: eski tarz IVR sistemlerini doğal konuşmayla değiştirme

Yaygın tuzaklar

Arka plan gürültüsü: ortam sesi VAD'ın başarısız olmasına neden olur; kulaklık veya yönlü mikrofon kullanın
TTS yankısı: hoparlör dizüstü bilgisayarın hoparlörüyse mikrofon TTS'i yakalayıp geri transkribe edebilir; kulaklık kullanın
Konuşma çakışması: kullanıcı sözü keser, sistem geç tepki verir = hayal kırıklığı; hızlı iptal mekanizması uygulayın
Algılanan gecikme ve gerçek gecikme: 1 saniyelik gecikme metinde kabul edilebilir görünür, seste yavaş hissettirir; mümkün olduğunda <500ms'ye optimize edin

diagrama de armadilhas — 4 situações comuns com ícones + solução; barulho (heads

Tarayıcıda temel uygulama

Hızlı deneme için:

`javascript
// 1. Yakalama
const stream = await navigator.mediaDevices.getUserMedia({audio: true});
const mediaRecorder = new MediaRecorder(stream);

// 2. Her 500ms'de chunk gönder
mediaRecorder.ondataavailable = async (e) => {
const formData = new FormData();
formData.append('file', e.data);
const r = await fetch('/api/transcribe', {method:'POST', body: formData});
const {text} = await r.json();
// 3. LLM'e gönder, yanıt al
// 4. Yanıtı /api/tts'e gönder, sonucu oynat
};
mediaRecorder.start(500);
`

Brainiall bunu sohbette hazır olarak sunar: mikrofon simgesine tıklayın ve basılı tutun.

Hemen şimdi deneyin

Brainiall sohbetinde mikrofon simgesine tıklayın ve basılı tutun. Konuşun, bırakın, metin ve ses olarak yanıt alın. Pro planı (₺29) tam ses desteği içerir; Business planı premium seslerin ve öncelikli gecikmenin kilidini açar.