Ana Brainiall

Bicara dengan suara (STT → LLM → TTS pipeline)

avancado · 12 min · Por Ana Brainiall

Anatomi sebuah percakapan suara

Percakapan suara dengan AI adalah rantai 3 API:

`
[Anda bicara] → Mikrofon → STT (Whisper) → teks

LLM (Claude/GPT)

[Anda dengar] ← Speaker ← TTS (pf_dora) ← teks
`

Setiap tahap memiliki latensi. Agar pengalaman terasa natural (seperti percakapan manusia), totalnya harus di bawah 1,5 detik. Di tahun 2026, ini bisa dicapai namun membutuhkan rekayasa yang cermat.

diagrama de fluxo com 3 blocos coloridos — STT (azul), LLM (roxo), TTS (verde) —

Latensi realistis di tahun 2026

Pengukuran dalam percakapan nyata di Brainiall:

Total first-token-to-speech: 1150-2150ms. Dapat diterima jika model mulai "berbicara" lebih awal (streaming).

Streaming adalah segalanya

Tanpa streaming, setiap tahap menunggu tahap sebelumnya selesai: 600ms + 900ms + 500ms = minimal 2000ms.

Dengan streaming:
- STT dapat mulai mentranskrip sementara Anda masih berbicara (VAD — Voice Activity Detection)
- LLM mulai menghasilkan token sebelum STT selesai (dengan sedikit prediksi niat)
- TTS mulai melafalkan kata-kata pertama sementara LLM masih menghasilkan kata-kata terakhir

Latensi efektif turun menjadi 400-700ms. Terasa natural.

VAD: kapan berhenti mendengarkan

Masalah paling halus: mendeteksi bahwa Anda telah berhenti berbicara. Jika berhenti terlalu cepat, kalimat Anda terpotong. Jika terlalu lambat, menambah 500ms latensi.

Teknik-tekniknya:
- Keheningan absolut selama 600ms: sederhana namun tidak menangani jeda berpikir yang natural
- Silero VAD: model neural yang mendeteksi akhir kalimat dengan ~95% akurasi dalam <50ms
- Confidence from STT: Whisper mengembalikan confidence; jika turun, kemungkinan sudah selesai
- Interruption detection: pengguna mulai bicara lagi → membatalkan TTS yang sedang berjalan, memulai ulang siklus

Brainiall menggunakan Silero VAD + threshold keheningan dinamis (menyesuaikan berdasarkan lingkungan).

Pilihan model untuk latensi vs kualitas

Dalam voice mode, biasanya sepadan untuk sedikit mengorbankan kualitas LLM demi kecepatan:

Untuk percakapan di mana kualitas > latensi (mis: tutor bahasa yang mendetail), gunakan Claude Sonnet 4.6 atau GPT-5 lengkap.

Kasus penggunaan yang cocok untuk voice mode

Jebakan umum yang perlu diwaspadai

diagrama de armadilhas — 4 situações comuns com ícones + solução; barulho (heads

Implementasi dasar di browser

Untuk eksperimen cepat:

`javascript
// 1. Perekaman
const stream = await navigator.mediaDevices.getUserMedia({audio: true});
const mediaRecorder = new MediaRecorder(stream);

// 2. Kirim chunks setiap 500ms
mediaRecorder.ondataavailable = async (e) => {
const formData = new FormData();
formData.append('file', e.data);
const r = await fetch('/api/transcribe', {method:'POST', body: formData});
const {text} = await r.json();
// 3. Kirim ke LLM, terima respons
// 4. Kirim respons ke /api/tts, putar hasilnya
};
mediaRecorder.start(500);
`

Brainiall sudah menyediakan ini langsung di chat: klik ikon mikrofon dan tahan (press-and-hold).

Coba sekarang juga

Di chat Brainiall, klik ikon mikrofon dan tahan (press-and-hold). Bicara, lepaskan, dan terima respons dalam teks + audio. Paket Pro Rp 49rb sudah termasuk fitur suara lengkap; paket Business membuka akses ke suara premium + latensi prioritas.

Suka kursusnya?

Buka 17 kursus Pro + 40+ AI di chat + pembuatan video, musik, dan Studio lengkap.

Jadi Pro · Rp 49rb/bulan

Batalkan kapan saja · Tanpa komitmen