اكتشف CPF وRG والبريد الإلكتروني في المستندات تلقائياً
ما هي PII ولماذا يُلزمك LGPD بالعثور عليها
PII (المعلومات التعريفية الشخصية) هي أي بيانات تُحدد هوية شخص ما: الاسم، CPF، RG، البريد الإلكتروني، الهاتف، العنوان، البيانات المصرفية، الصورة، والبيانات البيومترية. بموجب LGPD (القانون 13.709/2018)، إذا كنت تحتفظ ببيانات PII لمستخدمين برازيليين، فأنت ملزم بما يلي:
1. معرفة مكان تخزين كل بيانات PII
2. القدرة على تصدير جميع بيانات PII الخاصة بمستخدم معين عند الطلب (المادة 18)
3. حذفها بالكامل عندما يطلب المستخدم "حق النسيان"
4. مراجعة من وصل إلى كل بيانة شخصية ومتى
المشكلة: تنتشر بيانات PII في السجلات والبريد الإلكتروني ومستندات Word وتذاكر الدعم ولقطات الشاشة وقواعد البيانات التاريخية. العثور على PII يدوياً أمر مستحيل في شركة تضم أكثر من 100 موظف.

أنواع PII الخاصة بالبرازيل
تكتشف نماذج NER (التعرف على الكيانات المسماة) الدولية الاسم والبريد الإلكتروني والهاتف والعنوان بشكل جيد. أما البرازيل، فتحتاج إلى تعرف مخصص:
- CPF: بصيغة 000.000.000-00 أو 00000000000 مع التحقق من الأرقام المرجعية
- CNPJ: 00.000.000/0000-00 أو 14 رقماً
- RG: تتفاوت الصيغة حسب الولاية (ساو باولو: 00.000.000-0، وولايات أخرى بصيغ مختلفة)
- CEP: 00000-000 أو 8 أرقام
- بطاقة الناخب: 12 رقماً
- PIS/PASEP: 11 رقماً مع التحقق
- رخصة القيادة (CNH): 11 رقماً
تستخدم Brainiall نموذج ONNX مخصصاً مدرَّباً على مستندات برازيلية، مع تعبيرات regex مُتحقق منها، لالتقاط هذه الأنواع بدقة تتجاوز 98%.
الفرق بين الكشف وإخفاء الهوية
الكشف ليس سوى الخطوة الأولى. ما تفعله بعد ذلك يعتمد على السياق:
- إخفاء الهوية القابل للعكس: استبدال البيانات برمز مميز (مثل:
CPF_USR_42) مع الاحتفاظ بالتعيين في خزنة مشفرة. مفيد للتحليل الإجمالي دون كشف الهوية. - الحجب الكامل: استبدالها بـ
[REDACTED]. مفيد لنشر السجلات أو التقارير خارجياً. - إخفاء الهوية الجزئي: استبدالها بقيمة معقولة لكنها مزيفة (CPF غير صالح بصيغة صحيحة). مفيد لبيئات الاختبار.
- الحذف: إزالة البيانات كلياً. لطلبات GDPR/LGPD المادة 18.
توفر نقطة نهاية Brainiall الأوضاع الأربعة جميعها عبر المعامل mode.
التكامل مع خط أنابيب عملك
التدفق النموذجي في الشركات:
1. الاكتشاف: فحص دوري (أسبوعي) لجميع مصادر البيانات — قواعد البيانات، S3، السجلات، البريد الإلكتروني
2. التصنيف: تحديد مكان وجود PII ونوعها ومستوى حساسيتها
3. التقليل: بيانات PII التي لم تعد ضرورية — احذفها أو انقلها إلى تخزين بارد مشفر
4. تلبية الطلبات: عند طلب المستخدم التصدير أو الحذف، يتم التحديد السريع عبر الفهرس
API الكشف ليست سوى طبقة واحدة في هذا الخط. تحتاج أيضاً إلى بنية تحتية للبيانات الوصفية وسجل المراجعة وخرائط التعيين.

الأخطاء الشائعة التي يجب تجنبها
- الإيجابيات الكاذبة: رقم هاتف عشوائي في نص يتحدث عن "الخط 555-1234" قد يُصنَّف كهاتف حقيقي
- السياق مهم: "رقم CPF الخاص بي هو 000.000.000-00" مقابل "سرد المستند أرقام CPF مجهولة" — الثانية ليست PII حقيقية
- Base64: لا يمكن اكتشاف PII المخفية في سلاسل مشفرة دون فك الترميز مسبقاً
- أخطاء OCR: أرقام CPF الممسوحة ضوئياً بأحرف مبدلة (O بدلاً من 0) تمر دون اكتشاف
- الأسماء المركبة: "Maria dos Santos" سهلة التعرف؛ أما "José" منفرداً فقد يكون مجرد كلمة عادية
جرّبها الآن
في محادثة Brainiall، اطلب "اكتشف PII في هذا النص: [الصق المحتوى]". أو عبر API على /api/nlp/pii. للامتثال على مستوى المؤسسات، تتيح خطة Business بـ 99 ريال برازيلي واجهة API للدفعات مع الاحتفاظ بسجل المراجعة لمدة 12 شهراً.