استنسخ صوتك بـ 10 ثوانٍ من الصوت

iniciante · 10 min · Por Ana Brainiall

لماذا تكفي 10 ثوانٍ اليوم (ولم تكن كافية قبل عامين)

حتى عام 2023، كان استنساخ الصوت يتطلب من 30 دقيقة إلى عدة ساعات من التسجيل النظيف في استوديو، مع قراءة مجموعة نصوص محددة. أما اليوم، فنماذج مثل Kokoro TTS وXTTS v2 تُنجز المهمة ذاتها بـ 6 إلى 15 ثانية فقط من الصوت المرجعي، في أي بيئة هادئة بشكل معقول.

ما الذي تغيّر؟ البنية التقنية. تفصل النماذج الحديثة بين ما تقوله (المحتوى) وكيفية قولك له (جرس الصوت، والنبرة، والإيقاع). يستخرج encoder صغير "بصمتك الصوتية" في بضع مئات من الميلي ثانية، ثم يمكن تركيب أي نص باستخدام هذه البصمة. النموذج نفسه يعرف مسبقاً كيف يتحدث البرتغالية أو الإنجليزية أو غيرها — فهو فقط "يُلوّن" النص بصوتك.

diagrama de dois caminhos — à esquerda, encoder extraindo "timbre" de 10s de áud

كيف يعمل pipeline Brainiall عملياً

في Brainiall نستخدم نموذج صوت أصلي يعمل على GPU مخصص، مع 54 صوتاً مُدرَّباً مسبقاً بـ 9 لغات — من بينها 3 أصوات عصبية باللغة البرتغالية البرازيلية (pf_dora، pm_alex، pm_santa). لاستنساخ صوت جديد، تسير العملية كالتالي:

1. تسجّل 10 ثوانٍ وأنت تقول أي شيء بالبرتغالية (مثلاً، بقراءة هذه الفقرة)
2. يستخرج encoder "بصمتك الصوتية" — وهي متجه من 512 رقماً
3. يستقبل synthesizer النص الذي تريد تعليقه + بصمتك الصوتية
4. تستلم ملف MP3 في غضون 2-4 ثوانٍ (الوقت الفعلي أقل من 1، أي أن التركيب أسرع من مدة الصوت النهائي)

متى يبدو طبيعياً، ومتى لا يزال يبدو آلياً

يبدو رائعاً عندما:
- يكون صوتك المرجعي نظيفاً (ضوضاء خلفية منخفضة، بدون صدى)
- تتحدث بنبرة محايدة، بدون ضحك أو تعجبات مبالغ فيها
- يكون النص المراد تعليقه بنفس لغة العينة
- الجمل قصيرة إلى متوسطة (حتى 30 كلمة في الجملة)

لا يزال يُخفق عندما:
- تطلب مشاعر محددة جداً (غضب انفجاري، بكاء)
- يحتوي النص على أسماء أجنبية كثيرة أو مصطلحات تقنية نادرة
- كانت العينة الأصلية تحتوي على ضوضاء محيطية — فالنموذج ينسخ الضوضاء معها
- الصوت الطويل جداً (أكثر من دقيقتين) يبدأ في "الانجراف" من حيث النبرة

gráfico estilo barra horizontal mostrando 4 cenários — "frase curta limpa: 95%",

الحدود الأخلاقية (مهم)

استنساخ الصوت دون موافقة صاحبه مشكلة قانونية وأخلاقية بالغة الخطورة. في Brainiall:

الأصوات المستنسخة مرتبطة بحسابك وأنت وحدك من يمكنه استخدامها
لا نستنسخ أبداً أصوات الآخرين من تسجيلات عامة دون إذن صريح من أصحابها
يخضع المحتوى المُولَّد للمراجعة قبل تسليمه (نكتشف محاولات انتحال شخصية سياسية أو شخصيات مشهورة)
يمكنك حذف بصمتك الصوتية في أي وقت من بياناتي (وفقاً لـ LGPD)

لاستنساخ الصوت استخدامات مشروعة وقوية: تعليق الكتب بصوتك الخاص، وإنشاء محتوى بلغات متعددة مع الحفاظ على هويتك، وتعزيز إمكانية الوصول للأشخاص الذين فقدوا القدرة على الكلام. استخدمه بمسؤولية.

جرّبه الآن

في محادثة Brainiall، انقر على أيقونة الميكروفون في حقل الإدخال، سجّل 10 ثوانٍ (أي محتوى)، ثم اكتب النص الذي تريد تعليقه. الاستنساخ نفسه مجاني حتى 3 محاولات شهرياً. خطة Pro بـ 29 ريال برازيلي تُتيح 100 صورة و10 مقاطع فيديو شهرياً، إضافة إلى 54 صوتاً جاهزاً — كثير منها يبدو أكثر طبيعية من الصوت المستنسخ بشكل هاوٍ.

استنسخ صوتك بـ 10 ثوانٍ من الصوت

لماذا تكفي 10 ثوانٍ اليوم (ولم تكن كافية قبل عامين)

كيف يعمل pipeline Brainiall عملياً

متى يبدو طبيعياً، ومتى لا يزال يبدو آلياً

الحدود الأخلاقية (مهم)

جرّبه الآن

التكامل عبر API

أعجبك المحتوى؟

لماذا تكفي 10 ثوانٍ اليوم (ولم تكن كافية قبل عامين)

كيف يعمل pipeline Brainiall عملياً

متى يبدو طبيعياً، ومتى لا يزال يبدو آلياً

الحدود الأخلاقية (مهم)

جرّبه الآن

التكامل عبر API

أعجبك المحتوى؟

واصل التعلم