روِّ أي نص بـ 9 لغات مع 54 صوتاً عصبياً
تطور TTS في 5 سنوات
حتى عام 2020، كان Text-to-Speech يبدو آلياً — جيل Siri الأصلي. من 2021 إلى 2023، تعلّمنا استخدام نماذج WaveNet وTacotron للوصول إلى صوت طبيعي. ومنذ 2024، جلبت نماذج من جيل جديد كلياً (XTTS وKokoro وVALL-E) ثلاثة تطورات حاسمة:
1. حجم صغير: يمتلك Kokoro 82 مليون معامل فقط — أصغر بـ 100 مرة من العمالقة القديمة، لكن بالجودة ذاتها
2. استنتاج في الوقت الفعلي: معامل RTF (Real-Time Factor) أقل من 0.2 على GPU مدخل؛ أي أن دقيقة واحدة من الصوت تُصنَّع في أقل من 12 ثانية
3. نبرة طبيعية: تنغيم وتأكيد وإيقاع — لا مزيد من "الرتابة مع الفاصلة"

اللغات الـ 9 في Brainiall
- البرتغالية البرازيلية: pf_dora (أنثى بالغة)، pm_alex، pm_santa (ذكور)
- الإنجليزية الأمريكية: af_heart، af_bella، af_nicole، am_adam، am_michael
- الإنجليزية البريطانية: bf_emma، bm_george، bm_lewis
- الإسبانية: ef_lucia، em_carlos
- الفرنسية: ff_juliette، fm_louis
- الألمانية: gf_sophia، gm_max
- الإيطالية: if_chiara، im_marco
- الصينية الماندرين: zf_mei، zm_wei
- اليابانية: jf_haruka، jm_kenji
لكل صوت شخصيته المميزة: pf_dora واضح وتعليمي (نستخدمه في دورات Brainiall Academy)، am_adam احترافي ومؤسسي، وaf_heart ذو نبرة أكثر عاطفية.
كيف تختار الصوت المناسب للسياق
- التعلم الإلكتروني / الدروس التعليمية: أصوات محايدة وواضحة النطق (pf_dora، am_adam)
- التسويق / الإعلانات: أصوات أكثر حيوية وتعبيراً (af_heart، am_michael)
- الكتب الصوتية: أصوات دافئة وسردية (af_bella، bm_george)
- الأخبار: أصوات رسمية وواضحة (pm_santa، am_adam)
- روبوتات الدردشة / المساعدون: أصوات ودية وسريعة (af_nicole، pm_alex)
نصيحة عملية: أنشئ 3-5 ثوانٍ اختبارية بـ 3 أصوات مرشحة قبل تصنيع نص طويل. التفضيل دائماً أمر شخصي.
التحكم في السرعة والنبرة
أكثر المعاملات فائدة:
- speed: من 0.25 إلى 4.0 — الافتراضي 1.0. استخدم 0.85 للكتب الصوتية (سرد هادئ)، و1.15 للمحتوى التعليمي، و1.3 فأكثر للمعاينات السريعة فقط
- format: mp3، wav، ogg. MP3 هو الافتراضي (أفضل ضغط)؛ WAV عندما ستُحرّر الصوت لاحقاً؛ OGG للبث عبر الويب
- pitch: تقبله بعض النماذج، يُضبط بالنصف تون (من -5 إلى +5)
تجنّب التطرف: speed أعلى من 2.0 يصبح غير مفهوم، وأقل من 0.5 يبدو اصطناعياً.
الحدود التقنية وحدود الاستخدام
- الحد الأقصى لكل طلب: 4000 حرف — ما يعادل تقريباً 4 فقرات. النصوص الطويلة تستلزم تقسيمها إلى أجزاء (chunking)
- اللغات المختلطة: كل صوت يُتقن لغته الأساسية؛ الخلط (مثل نص بالبرتغالية مع كلمات إنجليزية) قد يُنتج نطقاً مترددًا
- الأسماء الأجنبية: انطقها صوتياً في النص — مثل "مايكروسوفت" بدلاً من "Microsoft"
- علامات الترقيم مهمة: الفاصلة = توقف قصير، النقاط المتتالية = توقف طويل، النقطة = انخفاض في النبرة
- الرموز التعبيرية: معظم النماذج تتجاهلها أو تقرأها ككلمة (مثل "مبتسم") — احذفها قبل الإرسال

حالات استخدام عملية
- تعليق صوتي للدورات: كما نفعل في Academy — سريع وبتكلفة منخفضة ومتسق
- كتب صوتية منزلية: حوّل ملفات PDF/EPUB إلى MP3 للاستماع في السيارة
- إمكانية الوصول: حوّل مدونتك إلى صوت للقراء الذين يجدون صعوبة في القراءة
- بودكاست تلقائي: حوّل النشرات الإخبارية إلى صيغة بودكاست للتوزيع
- صوت للفيديوهات: استبدل التعليق الصوتي المكلف بـ TTS عندما لا يكون التوقيت حرجاً
جرّبه الآن
في محادثة Brainiall، أرسل رسالة وانقر على أيقونة 🔊 في الرد للاستماع عبر TTS. أو استخدم المسار /api/tts عبر API. تتيح خطة Pro بـ 29 ريالاً استخداماً سخياً لـ TTS؛ وتشمل خطة Business بـ 99 ريالاً رصيداً من API للتكاملات الخارجية.