Saatlerce ses/videoyu çok dilli hassas biçimde transkribe edin

iniciante · 8 min · Por Ana Brainiall

Whisper neden STT standardı haline geldi

OpenAI tarafından 2022'de açık kaynak olarak yayımlanan Whisper, Speech-to-Text dünyasında oyunun kurallarını değiştirdi. Önceki herhangi bir modelden 10 kat fazla veriyle — 680.000 saat çok dilli transkribe edilmiş sesle — eğitildi. Bu sayede rakiplerinin hâlâ geçemediği üç kritik avantaj elde etti:

1. Güçlü çok dilli destek: PT-BR, PT-PT ve bölgesel lehçeler dahil 99 dilde mükemmel performans
2. Gürültüye dayanıklılık: Arka plan müziği, sokak gürültüsü ve paralel konuşmalar içeren seslerde sorunsuz çalışır
3. Otomatik noktalama: Virgülleri, noktaları ve paragrafları kendi başına belirler — düzenlemeye gerek kalmaz

Brainiall'da en büyük ve en hassas model olan Whisper Large v3'ü, 10 dakikaya kadar olan kliplerde 15 saniyenin altında gecikme sağlamak için özel GPU üzerinde çalıştırıyoruz.

gráfico de barras comparando precisão (Word Error Rate) em PT-BR — Whisper Large

Model sesi nasıl "dinler"

Whisper, sesi Mel spektrogramlarına dönüştürür — frekans ile zamanın görsel bir temsili. Model, spektrogramı "girdi" olarak alan ve metni "çıktı" olarak üreten bir Transformer encoder-decoder mimarisine sahiptir; bu, çeviri modellerinin çalışma biçimine çok benzer.

Asıl sır, Whisper'ın aynı anda birden fazla görevi öğrenerek eğitilmiş olmasıdır:
- Aynı dilde transkripsiyon (STT)
- İngilizceye çeviri (STT + çeviri)
- Önceden bildirim olmaksızın dil tanıma
- Zaman damgalı segmentasyon

Bu sayede tek bir model; transkripsiyon, çeviri ve dil tanıma — daha önce üç ayrı modelin üstlendiği üç görevi — tek başına çözüyor.

Desteklenen formatlar ve pratik sınırlar

Brainiall şu formatları kabul eder:
- Formatlar: mp3, mp4, wav, ogg, webm, m4a, flac, mpeg
- Maksimum boyut: dosya başına 25 MB
- Önerilen süre: istek başına 10 dakikaya kadar — daha uzun sesler için bölün
- Örnekleme hızı: herhangi biri — dahili olarak 16kHz'e yeniden örneklenir
- Kanallar: mono veya stereo — her ikisi de desteklenir (stereo monoya dönüştürülür)

1 saatlik bir podcast'i transkribe etmek için ffmpeg ile 10 dakikalık bloklara bölün ve ardından transkriptleri birleştirin.

Ses türüne göre kalite

Mükemmel (>%97 doğruluk):
- Özel mikrofonla kaydedilen podcast'ler
- Sessiz odada yapılan kurumsal röportajlar
- Editoryal video anlatımı
- Zoom/Meet telekonferans konuşmaları

İyi (%90-95 doğruluk):
- Dizüstü bilgisayarla kaydedilen toplantılar
- Akıllı telefonla kaydedilen dersler
- Sakin dış mekânda çekilen vlog'lar

Zorlu (<%85 doğruluk):
- Şarkı sözleri (Whisper dener ama çok hata yapar)
- Aynı anda birden fazla kişinin konuştuğu sesler
- Sıkıştırılmış telefon görüşmeleri (8kHz)
- Çok spesifik bölgesel ifadeler ve argo

matriz visual de 4 quadrantes com exemplos de cada nível de precisão e causa — m

Prompt ipuçları

Whisper, transkripsiyon sürecini yönlendiren bir initial_prompt kabul eder. Şu amaçlarla kullanabilirsiniz:

Özel kelime dağarcığı: "Bu, anjiyoplasti, stent, miyokard enfarktüsü gibi terimler içeren bir kardiyoloji toplantısıdır"
Özel isimler: "Konuşanlar Fábio Suizu ve Maria Santos"
Biçimlendirme stili: "Başlıklar için büyük harf kullanın, konu değişimlerinde paragraf açın"
Lehçe: "Paulistana ifadeleriyle Brezilya Portekizcesi"

Bu, zorlu seslerde doğruluğu 3-5 yüzde puan artırabilir.

Pratik kullanım senaryoları

Otomatik altyazı: transkribe edin + zaman damgası ekleyin + SRT olarak biçimlendirin
Toplantı notları: tüm görüşmeyi transkribe edin + LLM'den özetlemesini isteyin
Video içinde arama: dosyanızı arama ile indekslenebilir metne dönüştürün
Gerçek zamanlı asistan: STT + LLM + TTS = eksiksiz sesli asistan
Erişilebilirlik: kurumsal eğitim videoları için otomatik altyazılar

Hemen deneyin

Brainiall sohbetinde dosya ekleme simgesine tıklayın, bir MP3 veya MP4 gönderin ve "bu sesi transkribe et" deyin. Ya da /api/transcribe rotasından API aracılığıyla kullanın. Pro Plan 29 R$ ile cömert kullanım hakkı elde edin; Business planı harici otomasyon için API kredileri içerir.