Encuentra CPF, RG y email en documentos automáticamente
Qué es PII y por qué la LGPD te obliga a encontrarla
PII (Personally Identifiable Information) es cualquier dato que identifica a una persona: nombre, CPF, RG, email, teléfono, dirección, datos bancarios, foto, biometría. Según la LGPD (Lei 13.709/2018), si almacenas PII de usuarios brasileños, necesitas:
1. Saber dónde está almacenada cada PII
2. Poder exportar todos los PII de un usuario bajo solicitud (art. 18)
3. Eliminarlos completamente cuando el usuario ejerce el "derecho al olvido"
4. Auditar quién accedió a cada dato personal y cuándo
El problema: la PII termina dispersa en logs, emails, documentos Word, tickets de soporte, capturas de pantalla, bases de datos históricas. Encontrar PII manualmente es imposible en empresas con más de 100 empleados.

Los tipos de PII específicos de Brasil
Los modelos NER (Named Entity Recognition) internacionales detectan bien nombres, emails, teléfonos y direcciones. Para Brasil, necesitamos reconocimiento específico:
- CPF: formato 000.000.000-00 o 00000000000 + validación de dígitos verificadores
- CNPJ: 00.000.000/0000-00 o 14 dígitos
- RG: el formato varía por estado (SP: 00.000.000-0, otros estados difieren)
- CEP: 00000-000 o 8 dígitos
- Título de eleitor: 12 dígitos
- PIS/PASEP: 11 dígitos con validación
- Carteira de habilitação (CNH): 11 dígitos
Brainiall utiliza un modelo ONNX personalizado entrenado con documentos brasileños + expresiones regulares validadas para capturar estos tipos con una precisión superior al 98%.
Diferencia entre detección y anonimización
Detectar es solo el primer paso. Lo que haces después depende del contexto:
- Anonimización reversible: reemplazar por un token (ej:
CPF_USR_42) manteniendo el mapeo en un vault cifrado. Ideal para análisis agregado sin exponer identidades. - Redacción completa: reemplazar por
[REDACTED]. Ideal para publicar logs o informes de forma externa. - Seudonimización: reemplazar por un valor plausible pero falso (CPF inválido con formato correcto). Ideal para entornos de prueba.
- Eliminación: borrar completamente. Para solicitudes bajo GDPR/LGPD art. 18.
El endpoint de Brainiall ofrece los 4 modos mediante el parámetro mode.
Integrando con tu pipeline
Flujo típico en una empresa:
1. Discovery: escaneo periódico (semanal) en todas las fuentes de datos — bases de datos, S3, logs, email
2. Clasificación: marcar dónde está la PII, qué tipo es y su criticidad
3. Minimización: PII que ya no se necesita = eliminar o mover a cold storage cifrado
4. Atención de solicitudes: cuando el usuario pide exportar o eliminar sus datos, localización rápida mediante índice
La API de detección es solo una capa de ese pipeline. También necesitas infraestructura de metadatos, audit log y mapeo de datos.

Errores comunes a evitar
- Falsos positivos: un número de teléfono aleatorio en un texto sobre "la línea 555-1234" puede marcarse como teléfono real
- El contexto importa: "mi CPF es 000.000.000-00" vs "el documento listó CPFs anónimos" — el segundo no es PII real
- Base64: la PII oculta en strings codificadas no se detecta sin decodificación previa
- Errores de OCR: CPFs escaneados con caracteres intercambiados (O en lugar de 0) pasan desapercibidos
- Nombres compuestos: "Maria dos Santos" es fácil de detectar; "José" de forma aislada puede ser solo una palabra
Pruébalo ahora mismo
En el chat de Brainiall escribe "detecta PII en este texto: [pega el contenido]". O vía API en /api/nlp/pii. Para compliance a escala empresarial, el plan Business por US$19 incluye batch API + retención de log de auditoría por 12 meses.