Herhangi bir metni 54 nöral sesle 9 dilde seslendirin
TTS'nin 5 yıldaki evrimi
2020'ye kadar Text-to-Speech robotik bir ses çıkarıyordu — orijinal Siri neslinin sesi. 2021-2023 arasında doğal sese ulaşmak için WaveNet ve Tacotron modellerini kullanmayı öğrendik. 2024 ve sonrasında ise yeni nesil modeller (XTTS, Kokoro, VALL-E) üç çığır açan ilerleme getirdi:
1. Küçük boyut: Kokoro yalnızca 82 milyon parametreye sahip — eski devlerden 100× daha küçük, ancak aynı kalitede
2. Gerçek zamanlı çıkarım: Giriş seviyesi bir GPU'da RTF (Gerçek Zamanlı Faktör) < 0.2; yani 1 dakikalık ses 12 saniyeden kısa sürede sentezleniyor
3. Doğal prozodi: tonlama, vurgu, ritim — artık "virgüllü monotonluk" yok

Brainiall'ın 9 dili
- Brezilya Portekizcesi: pf_dora (yetişkin kadın), pm_alex, pm_santa (erkek)
- Amerikan İngilizcesi: af_heart, af_bella, af_nicole, am_adam, am_michael
- İngiliz İngilizcesi: bf_emma, bm_george, bm_lewis
- İspanyolca: ef_lucia, em_carlos
- Fransızca: ff_juliette, fm_louis
- Almanca: gf_sophia, gm_max
- İtalyanca: if_chiara, im_marco
- Mandarin Çincesi: zf_mei, zm_wei
- Japonca: jf_haruka, jm_kenji
Her sesin kendine özgü bir kişiliği var: pf_dora net ve eğitici bir tona sahip (Brainiall Academy kurslarında kullanıyoruz), am_adam kurumsal ve profesyonel, af_heart ise daha duygusal bir havaya sahip.
Bağlama uygun sesi nasıl seçersiniz
- E-öğrenme / eğitimler: nötr ve anlaşılır sesler (pf_dora, am_adam)
- Pazarlama / reklamlar: dinamik ve etkileyici sesler (af_heart, am_michael)
- Sesli kitaplar: sıcak ve anlatıcı sesler (af_bella, bm_george)
- Haberler: resmi ve net sesler (pm_santa, am_adam)
- Sohbet botları / asistanlar: samimi ve akıcı sesler (af_nicole, pm_alex)
Pratik ipucu: Uzun bir metni sentezlemeden önce 3 aday sesle 3-5 saniyelik test kaydı oluşturun. Tercih her zaman kişiseldir.
Hız ve tonu kontrol etme
En kullanışlı parametreler:
- speed: 0.25 ile 4.0 arası — varsayılan 1.0. Sesli kitaplar için 0.85 (sakin anlatım), eğitim içerikleri için 1.15, hızlı önizlemeler için 1.3+
- format: mp3, wav, ogg. MP3 varsayılandır (en iyi sıkıştırma); WAV sesi sonradan düzenleyecekseniz; OGG web akışı için
- pitch: bazı modeller destekler, yarı ton cinsinden ayarlayın (-5 ile +5 arası)
Aşırıya kaçmayın: speed > 2.0 anlaşılmaz hale gelir, < 0.5 ise yapay bir his verir.
Teknik ve kullanım sınırları
- İstek başına maksimum: 4000 karakter — yaklaşık 4 paragraf. Uzun metinler parçalara bölünmeyi (chunking) gerektirir
- Karışık diller: her ses kendi ana dilinde iyi konuşur; dilleri karıştırmak (örn. PT metinde İngilizce kelimeler) tereddütlü bir telaffuza yol açabilir
- Yabancı özel isimler: prompt'ta fonetik olarak yazın — "Microsoft" yerine "Maykrosoft"
- Noktalama önemlidir: virgül = kısa duraklama, üç nokta = uzun duraklama, nokta = ton düşüşü
- Emojiler: çoğu model görmezden gelir ya da kelime olarak okur ("gülümsüyor") — önceden kaldırın

Pratik kullanım senaryoları
- Kurs seslendirmesi: Academy'de yaptığımız gibi — hızlı, uygun maliyetli, tutarlı
- Ev yapımı sesli kitaplar: PDF/EPUB dosyalarını arabada dinlemek için MP3'e dönüştürün
- Erişilebilirlik: okuma güçlüğü çeken kullanıcılar için blogunuzu sese dönüştürün
- Otomatik podcast'ler: bültenleri dağıtım için podcast formatına çevirin
- Video seslendirmesi: zamanlama kritik olmadığında pahalı voice-over yerine TTS kullanın
Hemen deneyin
Brainiall sohbetinde bir mesaj gönderin ve TTS ile dinlemek için yanıttaki 🔊 simgesine tıklayın. Ya da API üzerinden /api/tts rotasını kullanın. Pro Plan ₺29 ile TTS'yi geniş ölçüde kullanabilirsiniz; Business Plan ₺99 ise harici entegrasyonlar için API kredileri içerir.