Đọc bất kỳ văn bản nào bằng 9 ngôn ngữ với 54 giọng nói thần kinh

iniciante · 8 min · Por Ana Brainiall

Sự tiến hóa của TTS trong 5 năm

Trước năm 2020, Text-to-Speech nghe rất máy móc — thế hệ của Siri nguyên bản. Từ 2021 đến 2023, chúng ta học cách sử dụng các mô hình WaveNet và Tacotron để đạt được giọng nói tự nhiên hơn. Từ năm 2024 trở đi, các mô hình thế hệ mới (XTTS, Kokoro, VALL-E) đã mang lại ba bước đột phá quan trọng:

1. Kích thước nhỏ gọn: Kokoro chỉ có 82 triệu tham số — nhỏ hơn 100× so với các mô hình khổng lồ trước đây, nhưng chất lượng tương đương
2. Suy luận thời gian thực: RTF (Real-Time Factor) < 0.2 trên GPU phổ thông; nghĩa là 1 phút âm thanh được tổng hợp trong chưa đầy 12 giây
3. Ngữ điệu tự nhiên: âm điệu, nhấn mạnh, nhịp điệu — không còn "đều đều như đọc danh sách"

gráfico de timeline mostrando 5 marcos — 2020 Siri robótica, 2021 Tacotron, 2023

9 ngôn ngữ của Brainiall

Tiếng Bồ Đào Nha Brazil: pf_dora (nữ trưởng thành), pm_alex, pm_santa (nam)
Tiếng Anh Mỹ: af_heart, af_bella, af_nicole, am_adam, am_michael
Tiếng Anh Anh: bf_emma, bm_george, bm_lewis
Tiếng Tây Ban Nha: ef_lucia, em_carlos
Tiếng Pháp: ff_juliette, fm_louis
Tiếng Đức: gf_sophia, gm_max
Tiếng Ý: if_chiara, im_marco
Tiếng Trung phổ thông: zf_mei, zm_wei
Tiếng Nhật: jf_haruka, jm_kenji

Mỗi giọng nói có cá tính riêng: pf_dora rõ ràng và mang tính giáo dục (chúng tôi sử dụng trong các khóa học của Brainiall Academy), am_adam mang phong cách chuyên nghiệp doanh nghiệp, af_heart có giọng điệu cảm xúc hơn.

Cách chọn giọng nói phù hợp với từng ngữ cảnh

E-learning / hướng dẫn: giọng trung tính và rõ ràng (pf_dora, am_adam)
Marketing / quảng cáo: giọng năng động và biểu cảm (af_heart, am_michael)
Sách nói: giọng ấm áp và kể chuyện (af_bella, bm_george)
Tin tức: giọng trang trọng và rõ ràng (pm_santa, am_adam)
Chatbot / trợ lý: giọng thân thiện và nhanh nhẹn (af_nicole, pm_alex)

Mẹo thực tế: tạo đoạn thử nghiệm 3-5 giây với 3 giọng ứng viên trước khi tổng hợp văn bản dài. Sở thích luôn mang tính chủ quan.

Kiểm soát tốc độ và âm điệu

Các tham số hữu ích nhất:

speed: 0.25 đến 4.0 — mặc định 1.0. Dùng 0.85 cho sách nói (narration thư thái), 1.15 cho nội dung giáo dục, 1.3+ chỉ dùng để xem trước nhanh
format: mp3, wav, ogg. MP3 là mặc định (nén tốt nhất); WAV khi bạn cần chỉnh sửa âm thanh sau đó; OGG cho streaming web
pitch: một số mô hình hỗ trợ, điều chỉnh theo semitone (-5 đến +5)

Đừng đi đến cực đoan: speed > 2.0 sẽ khó nghe, < 0.5 sẽ nghe giả tạo.

Giới hạn kỹ thuật và sử dụng

Tối đa mỗi request: 4000 ký tự — khoảng 4 đoạn văn. Văn bản dài cần chunking
Ngôn ngữ hỗn hợp: mỗi giọng nói tốt nhất ở ngôn ngữ chính của nó; trộn lẫn (ví dụ: văn bản tiếng Bồ với từ tiếng Anh) có thể phát âm không tự nhiên
Tên riêng nước ngoài: hãy viết theo phiên âm trong prompt — "Maicrosoft" thay vì "Microsoft"
Dấu câu quan trọng: dấu phẩy = dừng ngắn, dấu chấm lửng = dừng dài, dấu chấm = hạ giọng
Emoji: hầu hết các mô hình bỏ qua hoặc đọc thành từ ("đang cười") — hãy xóa trước khi dùng

guia visual de pontuação e efeito sonoro — cada sinal com ícone e descrição de i

Các trường hợp sử dụng thực tế

Narration khóa học: như chúng tôi làm tại Academy — nhanh, tiết kiệm, nhất quán
Sách nói tự làm: chuyển đổi PDF/EPUB thành MP3 để nghe trên xe
Khả năng tiếp cận: chuyển blog của bạn thành âm thanh cho người đọc gặp khó khăn với chữ viết
Podcast tự động: chuyển đổi newsletter sang định dạng podcast để phân phối
Giọng nói cho video: thay thế voice-over đắt tiền bằng TTS khi timing không phải yếu tố then chốt

Thử ngay bây giờ

Trong chat Brainiall, gửi một tin nhắn và nhấp vào biểu tượng 🔊 trong phản hồi để nghe bằng TTS. Hoặc qua route /api/tts via API. Gói Pro $5.99 cho phép sử dụng TTS rộng rãi; gói Business $19 bao gồm tín dụng API cho các tích hợp bên ngoài.