Saatlerce ses/videoyu çok dilli hassas biçimde transkribe edin
Whisper neden STT standardı haline geldi
OpenAI tarafından 2022'de açık kaynak olarak yayımlanan Whisper, Speech-to-Text dünyasında oyunun kurallarını değiştirdi. Önceki herhangi bir modelden 10 kat fazla veriyle — 680.000 saat çok dilli transkribe edilmiş sesle — eğitildi. Bu sayede rakiplerinin hâlâ geçemediği üç kritik avantaj elde etti:
1. Güçlü çok dilli destek: PT-BR, PT-PT ve bölgesel lehçeler dahil 99 dilde mükemmel performans
2. Gürültüye dayanıklılık: Arka plan müziği, sokak gürültüsü ve paralel konuşmalar içeren seslerde sorunsuz çalışır
3. Otomatik noktalama: Virgülleri, noktaları ve paragrafları kendi başına belirler — düzenlemeye gerek kalmaz
Brainiall'da en büyük ve en hassas model olan Whisper Large v3'ü, 10 dakikaya kadar olan kliplerde 15 saniyenin altında gecikme sağlamak için özel GPU üzerinde çalıştırıyoruz.

Model sesi nasıl "dinler"
Whisper, sesi Mel spektrogramlarına dönüştürür — frekans ile zamanın görsel bir temsili. Model, spektrogramı "girdi" olarak alan ve metni "çıktı" olarak üreten bir Transformer encoder-decoder mimarisine sahiptir; bu, çeviri modellerinin çalışma biçimine çok benzer.
Asıl sır, Whisper'ın aynı anda birden fazla görevi öğrenerek eğitilmiş olmasıdır:
- Aynı dilde transkripsiyon (STT)
- İngilizceye çeviri (STT + çeviri)
- Önceden bildirim olmaksızın dil tanıma
- Zaman damgalı segmentasyon
Bu sayede tek bir model; transkripsiyon, çeviri ve dil tanıma — daha önce üç ayrı modelin üstlendiği üç görevi — tek başına çözüyor.
Desteklenen formatlar ve pratik sınırlar
Brainiall şu formatları kabul eder:
- Formatlar: mp3, mp4, wav, ogg, webm, m4a, flac, mpeg
- Maksimum boyut: dosya başına 25 MB
- Önerilen süre: istek başına 10 dakikaya kadar — daha uzun sesler için bölün
- Örnekleme hızı: herhangi biri — dahili olarak 16kHz'e yeniden örneklenir
- Kanallar: mono veya stereo — her ikisi de desteklenir (stereo monoya dönüştürülür)
1 saatlik bir podcast'i transkribe etmek için ffmpeg ile 10 dakikalık bloklara bölün ve ardından transkriptleri birleştirin.
Ses türüne göre kalite
Mükemmel (>%97 doğruluk):
- Özel mikrofonla kaydedilen podcast'ler
- Sessiz odada yapılan kurumsal röportajlar
- Editoryal video anlatımı
- Zoom/Meet telekonferans konuşmaları
İyi (%90-95 doğruluk):
- Dizüstü bilgisayarla kaydedilen toplantılar
- Akıllı telefonla kaydedilen dersler
- Sakin dış mekânda çekilen vlog'lar
Zorlu (<%85 doğruluk):
- Şarkı sözleri (Whisper dener ama çok hata yapar)
- Aynı anda birden fazla kişinin konuştuğu sesler
- Sıkıştırılmış telefon görüşmeleri (8kHz)
- Çok spesifik bölgesel ifadeler ve argo

Prompt ipuçları
Whisper, transkripsiyon sürecini yönlendiren bir initial_prompt kabul eder. Şu amaçlarla kullanabilirsiniz:
- Özel kelime dağarcığı: "Bu, anjiyoplasti, stent, miyokard enfarktüsü gibi terimler içeren bir kardiyoloji toplantısıdır"
- Özel isimler: "Konuşanlar Fábio Suizu ve Maria Santos"
- Biçimlendirme stili: "Başlıklar için büyük harf kullanın, konu değişimlerinde paragraf açın"
- Lehçe: "Paulistana ifadeleriyle Brezilya Portekizcesi"
Bu, zorlu seslerde doğruluğu 3-5 yüzde puan artırabilir.
Pratik kullanım senaryoları
- Otomatik altyazı: transkribe edin + zaman damgası ekleyin + SRT olarak biçimlendirin
- Toplantı notları: tüm görüşmeyi transkribe edin + LLM'den özetlemesini isteyin
- Video içinde arama: dosyanızı arama ile indekslenebilir metne dönüştürün
- Gerçek zamanlı asistan: STT + LLM + TTS = eksiksiz sesli asistan
- Erişilebilirlik: kurumsal eğitim videoları için otomatik altyazılar
Hemen deneyin
Brainiall sohbetinde dosya ekleme simgesine tıklayın, bir MP3 veya MP4 gönderin ve "bu sesi transkribe et" deyin. Ya da /api/transcribe rotasından API aracılığıyla kullanın. Pro Plan 29 R$ ile cömert kullanım hakkı elde edin; Business planı harici otomasyon için API kredileri içerir.