روِّ أي نص بـ 9 لغات مع 54 صوتاً عصبياً

iniciante · 8 min · Por Ana Brainiall

تطور TTS في 5 سنوات

حتى عام 2020، كان Text-to-Speech يبدو آلياً — جيل Siri الأصلي. من 2021 إلى 2023، تعلّمنا استخدام نماذج WaveNet وTacotron للوصول إلى صوت طبيعي. ومنذ 2024، جلبت نماذج من جيل جديد كلياً (XTTS وKokoro وVALL-E) ثلاثة تطورات حاسمة:

1. حجم صغير: يمتلك Kokoro 82 مليون معامل فقط — أصغر بـ 100 مرة من العمالقة القديمة، لكن بالجودة ذاتها
2. استنتاج في الوقت الفعلي: معامل RTF (Real-Time Factor) أقل من 0.2 على GPU مدخل؛ أي أن دقيقة واحدة من الصوت تُصنَّع في أقل من 12 ثانية
3. نبرة طبيعية: تنغيم وتأكيد وإيقاع — لا مزيد من "الرتابة مع الفاصلة"

gráfico de timeline mostrando 5 marcos — 2020 Siri robótica, 2021 Tacotron, 2023

اللغات الـ 9 في Brainiall

البرتغالية البرازيلية: pf_dora (أنثى بالغة)، pm_alex، pm_santa (ذكور)
الإنجليزية الأمريكية: af_heart، af_bella، af_nicole، am_adam، am_michael
الإنجليزية البريطانية: bf_emma، bm_george، bm_lewis
الإسبانية: ef_lucia، em_carlos
الفرنسية: ff_juliette، fm_louis
الألمانية: gf_sophia، gm_max
الإيطالية: if_chiara، im_marco
الصينية الماندرين: zf_mei، zm_wei
اليابانية: jf_haruka، jm_kenji

لكل صوت شخصيته المميزة: pf_dora واضح وتعليمي (نستخدمه في دورات Brainiall Academy)، am_adam احترافي ومؤسسي، وaf_heart ذو نبرة أكثر عاطفية.

كيف تختار الصوت المناسب للسياق

التعلم الإلكتروني / الدروس التعليمية: أصوات محايدة وواضحة النطق (pf_dora، am_adam)
التسويق / الإعلانات: أصوات أكثر حيوية وتعبيراً (af_heart، am_michael)
الكتب الصوتية: أصوات دافئة وسردية (af_bella، bm_george)
الأخبار: أصوات رسمية وواضحة (pm_santa، am_adam)
روبوتات الدردشة / المساعدون: أصوات ودية وسريعة (af_nicole، pm_alex)

نصيحة عملية: أنشئ 3-5 ثوانٍ اختبارية بـ 3 أصوات مرشحة قبل تصنيع نص طويل. التفضيل دائماً أمر شخصي.

التحكم في السرعة والنبرة

أكثر المعاملات فائدة:

speed: من 0.25 إلى 4.0 — الافتراضي 1.0. استخدم 0.85 للكتب الصوتية (سرد هادئ)، و1.15 للمحتوى التعليمي، و1.3 فأكثر للمعاينات السريعة فقط
format: mp3، wav، ogg. MP3 هو الافتراضي (أفضل ضغط)؛ WAV عندما ستُحرّر الصوت لاحقاً؛ OGG للبث عبر الويب
pitch: تقبله بعض النماذج، يُضبط بالنصف تون (من -5 إلى +5)

تجنّب التطرف: speed أعلى من 2.0 يصبح غير مفهوم، وأقل من 0.5 يبدو اصطناعياً.

الحدود التقنية وحدود الاستخدام

الحد الأقصى لكل طلب: 4000 حرف — ما يعادل تقريباً 4 فقرات. النصوص الطويلة تستلزم تقسيمها إلى أجزاء (chunking)
اللغات المختلطة: كل صوت يُتقن لغته الأساسية؛ الخلط (مثل نص بالبرتغالية مع كلمات إنجليزية) قد يُنتج نطقاً مترددًا
الأسماء الأجنبية: انطقها صوتياً في النص — مثل "مايكروسوفت" بدلاً من "Microsoft"
علامات الترقيم مهمة: الفاصلة = توقف قصير، النقاط المتتالية = توقف طويل، النقطة = انخفاض في النبرة
الرموز التعبيرية: معظم النماذج تتجاهلها أو تقرأها ككلمة (مثل "مبتسم") — احذفها قبل الإرسال

guia visual de pontuação e efeito sonoro — cada sinal com ícone e descrição de i

حالات استخدام عملية

تعليق صوتي للدورات: كما نفعل في Academy — سريع وبتكلفة منخفضة ومتسق
كتب صوتية منزلية: حوّل ملفات PDF/EPUB إلى MP3 للاستماع في السيارة
إمكانية الوصول: حوّل مدونتك إلى صوت للقراء الذين يجدون صعوبة في القراءة
بودكاست تلقائي: حوّل النشرات الإخبارية إلى صيغة بودكاست للتوزيع
صوت للفيديوهات: استبدل التعليق الصوتي المكلف بـ TTS عندما لا يكون التوقيت حرجاً

جرّبه الآن

في محادثة Brainiall، أرسل رسالة وانقر على أيقونة 🔊 في الرد للاستماع عبر TTS. أو استخدم المسار /api/tts عبر API. تتيح خطة Pro بـ 29 ريالاً استخداماً سخياً لـ TTS؛ وتشمل خطة Business بـ 99 ريالاً رصيداً من API للتكاملات الخارجية.