Transkripsi jam-jam audio/video dalam bahasa apa pun dengan akurasi tinggi
Mengapa Whisper menjadi standar STT
Whisper, yang diluncurkan oleh OpenAI pada 2022 (open source), mengubah lanskap Speech-to-Text selamanya. Model ini dilatih dengan 680.000 jam audio multibahasa yang telah ditranskripsi — 10x lebih banyak data dibanding model mana pun sebelumnya. Hal ini memberikan tiga keunggulan yang belum mampu dilampaui para pesaingnya:
1. Multibahasa yang tangguh: unggul dalam 99 bahasa, termasuk PT-BR, PT-PT, dan berbagai dialek regional
2. Toleransi terhadap kebisingan: bekerja pada audio dengan musik latar, suara jalanan, maupun percakapan yang tumpang tindih
3. Tanda baca otomatis: secara mandiri menentukan letak koma, titik, dan paragraf — tanpa perlu pengeditan manual
Di Brainiall, kami menggunakan Whisper Large v3 (yang terbesar dan paling akurat), berjalan di GPU khusus untuk latensi < 15 detik pada klip hingga 10 menit.

Bagaimana model "mendengarkan"
Whisper mengonversi audio menjadi spektrogram Mel — representasi visual dari frekuensi vs waktu. Model ini adalah Transformer encoder-decoder yang memperlakukan spektrogram sebagai "input" dan menghasilkan teks sebagai "output", sangat mirip dengan cara kerja model penerjemahan.
Rahasia utamanya adalah Whisper dilatih secara bersamaan pada beberapa tugas sekaligus:
- Transkripsi dalam bahasa yang sama (STT)
- Penerjemahan ke bahasa Inggris (STT + terjemahan)
- Identifikasi bahasa tanpa pemberitahuan sebelumnya
- Segmentasi dengan timestamp
Artinya, satu model saja mampu menyelesaikan transkripsi + terjemahan + identifikasi bahasa — tiga tugas yang sebelumnya membutuhkan tiga model terpisah.
Format yang didukung dan batasan praktis
Brainiall menerima:
- Format: mp3, mp4, wav, ogg, webm, m4a, flac, mpeg
- Ukuran maksimum: 25 MB per file
- Durasi yang disarankan: hingga 10 menit per request — untuk audio yang lebih panjang, bagi menjadi beberapa bagian
- Sample rate: bebas — akan di-resample ke 16kHz secara internal
- Channel: mono atau stereo — keduanya didukung (stereo dikonversi ke mono)
Untuk mentranskripsi podcast berdurasi 1 jam, bagi menjadi blok 10 menit menggunakan ffmpeg, lalu gabungkan hasil transkripsinya.
Kualitas berdasarkan jenis audio
Sangat Baik (akurasi >97%):
- Podcast dengan mikrofon khusus
- Wawancara korporat di ruangan yang tenang
- Narasi video editorial
- Pidato dalam telekonferensi Zoom/Meet
Baik (akurasi 90-95%):
- Rekaman rapat melalui laptop
- Kelas yang direkam dengan smartphone
- Vlog yang difilmkan di lingkungan luar ruangan yang tenang
Menantang (akurasi <85%):
- Lagu yang dinyanyikan (Whisper berusaha namun sering salah pada lirik)
- Audio dengan banyak orang berbicara secara bersamaan
- Panggilan telepon yang terkompresi (8kHz)
- Regionalisme dan slang yang sangat spesifik

Trik penggunaan prompt
Whisper menerima sebuah initial_prompt — sebuah string yang memandu proses transkripsi. Gunakan untuk:
- Kosakata spesifik: "Ini adalah rapat tentang kardiologi yang mencakup istilah seperti angioplasti, stent, infark miokard"
- Nama orang: "Orang-orang yang berbicara adalah Fábio Suizu dan Maria Santos"
- Gaya pemformatan: "Gunakan huruf kapital untuk judul, paragraf dipisahkan setiap kali topik berganti"
- Dialek: "Bahasa Portugis Brasil dengan ekspresi khas São Paulo"
Hal ini dapat meningkatkan akurasi sebesar 3-5 poin persentase pada audio yang menantang.
Kasus penggunaan praktis
- Subtitle otomatis: transkripsi + tambahkan timestamp + format SRT
- Catatan rapat: transkripsi seluruh panggilan + minta LLM untuk merangkumnya
- Pencarian dalam video: ubah file Anda menjadi teks yang dapat diindeks dan dicari
- Asisten real-time: STT + LLM + TTS = asisten suara yang lengkap
- Aksesibilitas: subtitle otomatis untuk video pelatihan korporat
Coba sekarang juga
Di chat Brainiall, klik ikon lampiran file, kirim file MP3 atau MP4, lalu ketik "transkripsi audio ini". Atau gunakan API melalui rute /api/transcribe. Paket Pro Rp29 memiliki kuota penggunaan yang generous; paket Business sudah termasuk kredit API untuk otomasi eksternal.