Herhangi bir metni 54 nöral sesle 9 dilde seslendirin

iniciante · 8 min · Por Ana Brainiall

TTS'nin 5 yıldaki evrimi

2020'ye kadar Text-to-Speech robotik bir ses çıkarıyordu — orijinal Siri neslinin sesi. 2021-2023 arasında doğal sese ulaşmak için WaveNet ve Tacotron modellerini kullanmayı öğrendik. 2024 ve sonrasında ise yeni nesil modeller (XTTS, Kokoro, VALL-E) üç çığır açan ilerleme getirdi:

1. Küçük boyut: Kokoro yalnızca 82 milyon parametreye sahip — eski devlerden 100× daha küçük, ancak aynı kalitede
2. Gerçek zamanlı çıkarım: Giriş seviyesi bir GPU'da RTF (Gerçek Zamanlı Faktör) < 0.2; yani 1 dakikalık ses 12 saniyeden kısa sürede sentezleniyor
3. Doğal prozodi: tonlama, vurgu, ritim — artık "virgüllü monotonluk" yok

gráfico de timeline mostrando 5 marcos — 2020 Siri robótica, 2021 Tacotron, 2023

Brainiall'ın 9 dili

Brezilya Portekizcesi: pf_dora (yetişkin kadın), pm_alex, pm_santa (erkek)
Amerikan İngilizcesi: af_heart, af_bella, af_nicole, am_adam, am_michael
İngiliz İngilizcesi: bf_emma, bm_george, bm_lewis
İspanyolca: ef_lucia, em_carlos
Fransızca: ff_juliette, fm_louis
Almanca: gf_sophia, gm_max
İtalyanca: if_chiara, im_marco
Mandarin Çincesi: zf_mei, zm_wei
Japonca: jf_haruka, jm_kenji

Her sesin kendine özgü bir kişiliği var: pf_dora net ve eğitici bir tona sahip (Brainiall Academy kurslarında kullanıyoruz), am_adam kurumsal ve profesyonel, af_heart ise daha duygusal bir havaya sahip.

Bağlama uygun sesi nasıl seçersiniz

E-öğrenme / eğitimler: nötr ve anlaşılır sesler (pf_dora, am_adam)
Pazarlama / reklamlar: dinamik ve etkileyici sesler (af_heart, am_michael)
Sesli kitaplar: sıcak ve anlatıcı sesler (af_bella, bm_george)
Haberler: resmi ve net sesler (pm_santa, am_adam)
Sohbet botları / asistanlar: samimi ve akıcı sesler (af_nicole, pm_alex)

Pratik ipucu: Uzun bir metni sentezlemeden önce 3 aday sesle 3-5 saniyelik test kaydı oluşturun. Tercih her zaman kişiseldir.

Hız ve tonu kontrol etme

En kullanışlı parametreler:

speed: 0.25 ile 4.0 arası — varsayılan 1.0. Sesli kitaplar için 0.85 (sakin anlatım), eğitim içerikleri için 1.15, hızlı önizlemeler için 1.3+
format: mp3, wav, ogg. MP3 varsayılandır (en iyi sıkıştırma); WAV sesi sonradan düzenleyecekseniz; OGG web akışı için
pitch: bazı modeller destekler, yarı ton cinsinden ayarlayın (-5 ile +5 arası)

Aşırıya kaçmayın: speed > 2.0 anlaşılmaz hale gelir, < 0.5 ise yapay bir his verir.

Teknik ve kullanım sınırları

İstek başına maksimum: 4000 karakter — yaklaşık 4 paragraf. Uzun metinler parçalara bölünmeyi (chunking) gerektirir
Karışık diller: her ses kendi ana dilinde iyi konuşur; dilleri karıştırmak (örn. PT metinde İngilizce kelimeler) tereddütlü bir telaffuza yol açabilir
Yabancı özel isimler: prompt'ta fonetik olarak yazın — "Microsoft" yerine "Maykrosoft"
Noktalama önemlidir: virgül = kısa duraklama, üç nokta = uzun duraklama, nokta = ton düşüşü
Emojiler: çoğu model görmezden gelir ya da kelime olarak okur ("gülümsüyor") — önceden kaldırın

guia visual de pontuação e efeito sonoro — cada sinal com ícone e descrição de i

Pratik kullanım senaryoları

Kurs seslendirmesi: Academy'de yaptığımız gibi — hızlı, uygun maliyetli, tutarlı
Ev yapımı sesli kitaplar: PDF/EPUB dosyalarını arabada dinlemek için MP3'e dönüştürün
Erişilebilirlik: okuma güçlüğü çeken kullanıcılar için blogunuzu sese dönüştürün
Otomatik podcast'ler: bültenleri dağıtım için podcast formatına çevirin
Video seslendirmesi: zamanlama kritik olmadığında pahalı voice-over yerine TTS kullanın

Hemen deneyin

Brainiall sohbetinde bir mesaj gönderin ve TTS ile dinlemek için yanıttaki 🔊 simgesine tıklayın. Ya da API üzerinden /api/tts rotasını kullanın. Pro Plan ₺29 ile TTS'yi geniş ölçüde kullanabilirsiniz; Business Plan ₺99 ise harici entegrasyonlar için API kredileri içerir.