حوّل ساعات من الصوت/الفيديو إلى نص بدقة عالية

iniciante · 8 min · Por Ana Brainiall

لماذا أصبح Whisper المعيار الذهبي في STT

أحدث Whisper، الذي أطلقته OpenAI عام 2022 (مفتوح المصدر)، ثورةً حقيقية في عالم تحويل الكلام إلى نص. فقد تدرّب على 680,000 ساعة من الصوت متعدد اللغات — أي 10 أضعاف البيانات التي اعتمدت عليها أي نماذج سابقة. منحه ذلك ثلاث مزايا لم يتمكن أي منافس من تجاوزها بعد:

1. دعم متعدد اللغات بكفاءة عالية: أداء استثنائي في 99 لغة، بما فيها البرتغالية البرازيلية والبرتغالية الأوروبية واللهجات الإقليمية
2. مقاومة الضوضاء: يعمل بكفاءة مع الصوت الذي يحتوي على موسيقى خلفية أو ضجيج الشارع أو محادثات متزامنة
3. علامات ترقيم تلقائية: يضع الفواصل والنقاط والفقرات من تلقاء نفسه — دون الحاجة إلى تحرير يدوي

في Brainiall نستخدم Whisper Large v3 (الأكبر والأكثر دقة)، ويعمل على وحدة معالجة رسومية مخصصة لتحقيق زمن استجابة أقل من 15 ثانية للمقاطع التي تصل مدتها إلى 10 دقائق.

gráfico de barras comparando precisão (Word Error Rate) em PT-BR — Whisper Large

كيف "يستمع" النموذج؟

يحوّل Whisper الصوت إلى مخططات طيفية Mel — وهي تمثيل بصري للتردد مقابل الزمن. يعتمد النموذج على بنية Transformer encoder-decoder تعالج المخطط الطيفي كـ"مدخل" وتُنتج النص كـ"مخرج"، بأسلوب مشابه جداً لنماذج الترجمة الآلية.

السر الحقيقي يكمن في أن Whisper تدرّب على مهام متعددة في آنٍ واحد:
- النسخ في اللغة ذاتها (STT)
- الترجمة إلى الإنجليزية (STT + ترجمة)
- التعرف على اللغة تلقائياً دون إشعار مسبق
- التقطيع مع الطوابع الزمنية

هذا يعني أن نموذجاً واحداً يحل مهام النسخ والترجمة والتعرف على اللغة — ثلاث مهام كانت تتطلب سابقاً ثلاثة نماذج منفصلة.

الصيغ المدعومة والحدود العملية

تقبل Brainiall:
- الصيغ: mp3, mp4, wav, ogg, webm, m4a, flac, mpeg
- الحجم الأقصى: 25 ميغابايت لكل ملف
- المدة الموصى بها: حتى 10 دقائق لكل طلب — للملفات الأطول، قسّمها إلى أجزاء
- معدل أخذ العينات: أي معدل — سيُعاد ضبطه تلقائياً إلى 16kHz داخلياً
- القنوات: أحادية أو ستيريو — كلاهما مقبول (يُحوَّل الستيريو إلى أحادي)

لنسخ بودكاست مدته ساعة كاملة، قسّمه إلى مقاطع من 10 دقائق باستخدام ffmpeg ثم ادمج النصوص المنسوخة لاحقاً.

جودة النسخ حسب نوع الصوت

ممتاز (دقة أعلى من 97%):
- البودكاست المسجّل بميكروفون مخصص
- المقابلات المؤسسية في غرف هادئة
- التعليق الصوتي للفيديوهات التحريرية
- الخطابات في مؤتمرات Zoom/Meet

جيد (دقة 90-95%):
- تسجيل الاجتماعات عبر الحاسوب المحمول
- الدروس المسجّلة بالهاتف الذكي
- مقاطع Vlog المصوّرة في بيئات خارجية هادئة

تحدٍّ حقيقي (دقة أقل من 85%):
- الموسيقى الغنائية (يحاول Whisper لكنه يُخطئ كثيراً في الكلمات)
- الصوت الذي يتحدث فيه عدة أشخاص في آنٍ واحد
- المكالمات الهاتفية المضغوطة (8kHz)
- العامية الإقليمية والمصطلحات الخاصة جداً

matriz visual de 4 quadrantes com exemplos de cada nível de precisão e causa — m

حيل الـ Prompt الاحترافية

يقبل Whisper initial_prompt — وهو نص توجيهي يُرشد عملية النسخ. استخدمه من أجل:

مصطلحات متخصصة: "هذا اجتماع حول أمراض القلب ويتضمن مصطلحات مثل رأب الأوعية، الدعامة، احتشاء عضلة القلب"
أسماء الأشخاص: "المتحدثون هم فابيو سويزو وماريا سانتوس"
أسلوب التنسيق: "استخدم الأحرف الكبيرة للعناوين، وافصل الفقرات عند كل تغيير في الموضوع"
اللهجة: "البرتغالية البرازيلية بتعبيرات ولاية ساو باولو"

يمكن لهذا أن يرفع الدقة بمقدار 3-5 نقاط مئوية في الملفات الصوتية الصعبة.

حالات استخدام عملية

ترجمة تلقائية: انسخ الصوت + أضف الطوابع الزمنية + صدّر بصيغة SRT
ملاحظات الاجتماعات: انسخ المكالمة بالكامل + اطلب من LLM تلخيصها
البحث في الفيديوهات: حوّل ملفاتك إلى نص قابل للفهرسة والبحث
مساعد صوتي متكامل: STT + LLM + TTS = مساعد صوتي شامل
إمكانية الوصول: ترجمة تلقائية لفيديوهات التدريب المؤسسي

جرّبه الآن

في محادثة Brainiall، انقر على أيقونة إرفاق الملف، أرسل ملف MP3 أو MP4 واطلب "انسخ هذا الصوت". أو استخدم API عبر المسار /api/transcribe. تتيح خطة Pro بـ29 ريالاً استخداماً سخياً، فيما تشمل خطة Business رصيداً من API لأتمتة العمليات الخارجية.