استخرج الأسماء والشركات والتواريخ من النصوص تلقائياً
ما الذي تحله NER ولا تستطيع regex حله
تعمل regex بشكل رائع مع الأنماط الثابتة: الرمز البريدي دائماً 8 أرقام، والبريد الإلكتروني دائماً يحتوي على @. لكن أسماء الأشخاص والشركات والتواريخ لا تتبع نمطاً ثابتاً:
- "Pedro Silva"، "Maria da Conceição dos Santos"، "Dr. Fernando" — كلها أسماء أشخاص
- "Petrobras"، "Banco do Brasil"، "Itaú Unibanco SA"، "Loja do Seu Zé" — كلها شركات
- "5 de janeiro"، "05/01/2026"، "sexta passada"، "próximo mês" — كلها تواريخ
تستخدم NER نموذج لغوي يتعلم فهم السياق: "شركة Itaú" مقابل "شارع Itaú". لا تستطيع regex إجراء هذا التمييز، بينما تنجح NER في أكثر من 95% من الحالات.

الكيانات القياسية والمخصصة
تكتشف نماذج NER العامة (spaCy، HuggingFace) ما يلي:
- PER (شخص): Pedro Silva، Dr. João
- ORG (منظمة): Petrobras، Google
- LOC (مكان): São Paulo، البرازيل
- DATE: 5 de janeiro، 2026
- MONEY: R$ 1.500، USD 200
- TIME: 15h30، الساعة التاسعة صباحاً
- PERCENT: 20%، 0.5
للمجالات المتخصصة، يمكنك تدريب نموذج مخصص. أمثلة:
- القانوني: القوانين (Lei 13.709)، القضايا (N° 1234567-89.2024)، المحاكم
- الطبي: الأدوية، الأمراض (ICD-10)، الإجراءات
- المالي: رموز الأسهم، الوكالات، الحسابات
تقدم Brainiall نماذج مخصصة عند الطلب ضمن خطة Business.
كيف تعمل من الداخل (في 30 ثانية)
1. التقسيم إلى رموز (Tokenization): يُقسَّم النص إلى كلمات وعلامات ترقيم
2. وسم أجزاء الكلام (POS tagging): تحصل كل كلمة على فئة نحوية (اسم، فعل...)
3. السياق: تُحوَّل كل كلمة إلى متجه بأكثر من 768 بُعداً مع مراعاة الكلمات المجاورة
4. تصنيف BIO: يُصنَّف كل رمز على أنه Begin-entity أو Inside-entity أو Outside. مثال: "Pedro" (B-PER) "Silva" (I-PER) "trabalha" (O) "na" (O) "Petrobras" (B-ORG)
5. التجميع: تتحد الرموز المتتالية B+I لتشكّل كياناً واحداً
تُنفّذ النماذج الحديثة (mBERT، XLM-R، multilingual DeBERTa) هذه العملية في ~10-50 ميلي ثانية لكل فقرة.
حالات استخدام عملية
- إثراء CRM: استخراج الشركات وجهات الاتصال من رسائل البريد الإلكتروني لتحديث قاعدة البيانات
- تحليل الأخبار: مراقبة ذكر علامتك التجارية والمنافسين والمديرين التنفيذيين في وسائل الإعلام
- الامتثال: البحث عن أسماء الأشخاص في المستندات لتدقيق حماية البيانات
- البحث العلمي: استخراج المؤلفين والاستشهادات والتواريخ من الأوراق الأكاديمية على نطاق واسع
- التحليل القانوني: تحديد أطراف الدعاوى والقوانين المستشهد بها وتواريخ الأحكام
قيود خاصة باللغة البرتغالية البرازيلية
- الأسماء المركبة مع حروف الجر: "Maria dos Santos" — قد تقسّمها بعض النماذج إلى "Maria" + "Santos" ككيانين منفصلين
- الشركات العائلية بدون LTDA: قد تُعامَل "Padaria do Zé" كوصف لا ككيان
- الألقاب: "Lula" كشخص مقابل "lula" كطعام — تتفاوت حساسية الحالة
- العناوين البرازيلية: الشارع + الاسم + الرقم + الرمز البريدي — قد يخطئ التقسيم
- الاختصارات: هل "USP" كيان أم مجرد كلمة؟
نصيحة: في الحالات الحدية، راجع دائماً 100 مثال يدوياً قبل النشر في بيئة الإنتاج.
التكامل عبر API
نقطة نهاية واحدة تُعيد مصفوفة من الكيانات:
`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/ner",
json={"text": "Pedro Silva, da Petrobras, anunciou em 5 de janeiro."},
headers={"Authorization": "Bearer brnl-xxx"}
)
# [{"text": "Pedro Silva", "type": "PER", "start": 0, "end": 11},
# {"text": "Petrobras", "type": "ORG", "start": 16, "end": 25},
# {"text": "5 de janeiro", "type": "DATE", "start": 40, "end": 52}]`
جرّبها الآن
اطلب "استخرج الأشخاص والشركات والتواريخ من هذا النص: [الصق]" في محادثة Brainiall. أو عبر API على المسار /api/nlp/ner. تتيح خطة Pro بـ $5.99 ما يصل إلى 10 آلاف طلب شهرياً؛ وتوفر خطة Business معالجة الدُفعات والنماذج المخصصة.