Transkripsi jam-jam audio/video dalam bahasa apa pun dengan akurasi tinggi

iniciante · 8 min · Por Ana Brainiall

Mengapa Whisper menjadi standar STT

Whisper, yang diluncurkan oleh OpenAI pada 2022 (open source), mengubah lanskap Speech-to-Text selamanya. Model ini dilatih dengan 680.000 jam audio multibahasa yang telah ditranskripsi — 10x lebih banyak data dibanding model mana pun sebelumnya. Hal ini memberikan tiga keunggulan yang belum mampu dilampaui para pesaingnya:

1. Multibahasa yang tangguh: unggul dalam 99 bahasa, termasuk PT-BR, PT-PT, dan berbagai dialek regional
2. Toleransi terhadap kebisingan: bekerja pada audio dengan musik latar, suara jalanan, maupun percakapan yang tumpang tindih
3. Tanda baca otomatis: secara mandiri menentukan letak koma, titik, dan paragraf — tanpa perlu pengeditan manual

Di Brainiall, kami menggunakan Whisper Large v3 (yang terbesar dan paling akurat), berjalan di GPU khusus untuk latensi < 15 detik pada klip hingga 10 menit.

gráfico de barras comparando precisão (Word Error Rate) em PT-BR — Whisper Large

Bagaimana model "mendengarkan"

Whisper mengonversi audio menjadi spektrogram Mel — representasi visual dari frekuensi vs waktu. Model ini adalah Transformer encoder-decoder yang memperlakukan spektrogram sebagai "input" dan menghasilkan teks sebagai "output", sangat mirip dengan cara kerja model penerjemahan.

Rahasia utamanya adalah Whisper dilatih secara bersamaan pada beberapa tugas sekaligus:
- Transkripsi dalam bahasa yang sama (STT)
- Penerjemahan ke bahasa Inggris (STT + terjemahan)
- Identifikasi bahasa tanpa pemberitahuan sebelumnya
- Segmentasi dengan timestamp

Artinya, satu model saja mampu menyelesaikan transkripsi + terjemahan + identifikasi bahasa — tiga tugas yang sebelumnya membutuhkan tiga model terpisah.

Format yang didukung dan batasan praktis

Brainiall menerima:
- Format: mp3, mp4, wav, ogg, webm, m4a, flac, mpeg
- Ukuran maksimum: 25 MB per file
- Durasi yang disarankan: hingga 10 menit per request — untuk audio yang lebih panjang, bagi menjadi beberapa bagian
- Sample rate: bebas — akan di-resample ke 16kHz secara internal
- Channel: mono atau stereo — keduanya didukung (stereo dikonversi ke mono)

Untuk mentranskripsi podcast berdurasi 1 jam, bagi menjadi blok 10 menit menggunakan ffmpeg, lalu gabungkan hasil transkripsinya.

Kualitas berdasarkan jenis audio

Sangat Baik (akurasi >97%):
- Podcast dengan mikrofon khusus
- Wawancara korporat di ruangan yang tenang
- Narasi video editorial
- Pidato dalam telekonferensi Zoom/Meet

Baik (akurasi 90-95%):
- Rekaman rapat melalui laptop
- Kelas yang direkam dengan smartphone
- Vlog yang difilmkan di lingkungan luar ruangan yang tenang

Menantang (akurasi <85%):
- Lagu yang dinyanyikan (Whisper berusaha namun sering salah pada lirik)
- Audio dengan banyak orang berbicara secara bersamaan
- Panggilan telepon yang terkompresi (8kHz)
- Regionalisme dan slang yang sangat spesifik

matriz visual de 4 quadrantes com exemplos de cada nível de precisão e causa — m

Trik penggunaan prompt

Whisper menerima sebuah initial_prompt — sebuah string yang memandu proses transkripsi. Gunakan untuk:

Kosakata spesifik: "Ini adalah rapat tentang kardiologi yang mencakup istilah seperti angioplasti, stent, infark miokard"
Nama orang: "Orang-orang yang berbicara adalah Fábio Suizu dan Maria Santos"
Gaya pemformatan: "Gunakan huruf kapital untuk judul, paragraf dipisahkan setiap kali topik berganti"
Dialek: "Bahasa Portugis Brasil dengan ekspresi khas São Paulo"

Hal ini dapat meningkatkan akurasi sebesar 3-5 poin persentase pada audio yang menantang.

Kasus penggunaan praktis

Subtitle otomatis: transkripsi + tambahkan timestamp + format SRT
Catatan rapat: transkripsi seluruh panggilan + minta LLM untuk merangkumnya
Pencarian dalam video: ubah file Anda menjadi teks yang dapat diindeks dan dicari
Asisten real-time: STT + LLM + TTS = asisten suara yang lengkap
Aksesibilitas: subtitle otomatis untuk video pelatihan korporat

Coba sekarang juga

Di chat Brainiall, klik ikon lampiran file, kirim file MP3 atau MP4, lalu ketik "transkripsi audio ini". Atau gunakan API melalui rute /api/transcribe. Paket Pro Rp29 memiliki kuota penggunaan yang generous; paket Business sudah termasuk kredit API untuk otomasi eksternal.