استخرج الأسماء والشركات والتواريخ من النصوص تلقائياً

iniciante · 8 min · Por Ana Brainiall

ما الذي تحله NER ولا تستطيع regex حله

تعمل regex بشكل رائع مع الأنماط الثابتة: الرمز البريدي دائماً 8 أرقام، والبريد الإلكتروني دائماً يحتوي على @. لكن أسماء الأشخاص والشركات والتواريخ لا تتبع نمطاً ثابتاً:

"Pedro Silva"، "Maria da Conceição dos Santos"، "Dr. Fernando" — كلها أسماء أشخاص
"Petrobras"، "Banco do Brasil"، "Itaú Unibanco SA"، "Loja do Seu Zé" — كلها شركات
"5 de janeiro"، "05/01/2026"، "sexta passada"، "próximo mês" — كلها تواريخ

تستخدم NER نموذج لغوي يتعلم فهم السياق: "شركة Itaú" مقابل "شارع Itaú". لا تستطيع regex إجراء هذا التمييز، بينما تنجح NER في أكثر من 95% من الحالات.

texto de exemplo colorido com highlights em cores diferentes — nomes em azul, em

الكيانات القياسية والمخصصة

تكتشف نماذج NER العامة (spaCy، HuggingFace) ما يلي:

PER (شخص): Pedro Silva، Dr. João
ORG (منظمة): Petrobras، Google
LOC (مكان): São Paulo، البرازيل
DATE: 5 de janeiro، 2026
MONEY: R$ 1.500، USD 200
TIME: 15h30، الساعة التاسعة صباحاً
PERCENT: 20%، 0.5

للمجالات المتخصصة، يمكنك تدريب نموذج مخصص. أمثلة:

القانوني: القوانين (Lei 13.709)، القضايا (N° 1234567-89.2024)، المحاكم
الطبي: الأدوية، الأمراض (ICD-10)، الإجراءات
المالي: رموز الأسهم، الوكالات، الحسابات

تقدم Brainiall نماذج مخصصة عند الطلب ضمن خطة Business.

كيف تعمل من الداخل (في 30 ثانية)

1. التقسيم إلى رموز (Tokenization): يُقسَّم النص إلى كلمات وعلامات ترقيم
2. وسم أجزاء الكلام (POS tagging): تحصل كل كلمة على فئة نحوية (اسم، فعل...)
3. السياق: تُحوَّل كل كلمة إلى متجه بأكثر من 768 بُعداً مع مراعاة الكلمات المجاورة
4. تصنيف BIO: يُصنَّف كل رمز على أنه Begin-entity أو Inside-entity أو Outside. مثال: "Pedro" (B-PER) "Silva" (I-PER) "trabalha" (O) "na" (O) "Petrobras" (B-ORG)
5. التجميع: تتحد الرموز المتتالية B+I لتشكّل كياناً واحداً

تُنفّذ النماذج الحديثة (mBERT، XLM-R، multilingual DeBERTa) هذه العملية في ~10-50 ميلي ثانية لكل فقرة.

حالات استخدام عملية

إثراء CRM: استخراج الشركات وجهات الاتصال من رسائل البريد الإلكتروني لتحديث قاعدة البيانات
تحليل الأخبار: مراقبة ذكر علامتك التجارية والمنافسين والمديرين التنفيذيين في وسائل الإعلام
الامتثال: البحث عن أسماء الأشخاص في المستندات لتدقيق حماية البيانات
البحث العلمي: استخراج المؤلفين والاستشهادات والتواريخ من الأوراق الأكاديمية على نطاق واسع
التحليل القانوني: تحديد أطراف الدعاوى والقوانين المستشهد بها وتواريخ الأحكام

قيود خاصة باللغة البرتغالية البرازيلية

الأسماء المركبة مع حروف الجر: "Maria dos Santos" — قد تقسّمها بعض النماذج إلى "Maria" + "Santos" ككيانين منفصلين
الشركات العائلية بدون LTDA: قد تُعامَل "Padaria do Zé" كوصف لا ككيان
الألقاب: "Lula" كشخص مقابل "lula" كطعام — تتفاوت حساسية الحالة
العناوين البرازيلية: الشارع + الاسم + الرقم + الرمز البريدي — قد يخطئ التقسيم
الاختصارات: هل "USP" كيان أم مجرد كلمة؟

نصيحة: في الحالات الحدية، راجع دائماً 100 مثال يدوياً قبل النشر في بيئة الإنتاج.

التكامل عبر API

نقطة نهاية واحدة تُعيد مصفوفة من الكيانات:

`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/ner",
json={"text": "Pedro Silva, da Petrobras, anunciou em 5 de janeiro."},
headers={"Authorization": "Bearer brnl-xxx"}
)
# [{"text": "Pedro Silva", "type": "PER", "start": 0, "end": 11},
# {"text": "Petrobras", "type": "ORG", "start": 16, "end": 25},
# {"text": "5 de janeiro", "type": "DATE", "start": 40, "end": 52}]
`

جرّبها الآن

اطلب "استخرج الأشخاص والشركات والتواريخ من هذا النص: [الصق]" في محادثة Brainiall. أو عبر API على المسار /api/nlp/ner. تتيح خطة Pro بـ $5.99 ما يصل إلى 10 آلاف طلب شهرياً؛ وتوفر خطة Business معالجة الدُفعات والنماذج المخصصة.