Encontre CPF, RG e email em documentos automaticamente
O que é PII e por que LGPD te obriga a encontrar
PII (Personally Identifiable Information) é qualquer dado que identifica uma pessoa: nome, CPF, RG, email, telefone, endereço, dados bancários, foto, biometria. Pela LGPD (Lei 13.709/2018), se você guarda PII de usuários brasileiros, você precisa:
1. Saber onde cada PII está armazenada
2. Poder exportar todos os PII de um usuário sob requisição (art. 18)
3. Deletar completamente quando o usuário pede o "direito ao esquecimento"
4. Auditar quem acessou cada dado pessoal e quando
O problema: PII acaba espalhada em logs, emails, documentos Word, tickets de suporte, prints de tela, databases históricos. Encontrar PII manualmente é impossível em empresa com mais de 100 funcionários.

Os tipos de PII específicos do Brasil
Modelos NER (Named Entity Recognition) internacionais detectam bem nome, email, telefone, endereço. Para Brasil, precisamos de reconhecimento específico:
- CPF: formato 000.000.000-00 ou 00000000000 + validação dos dígitos verificadores
- CNPJ: 00.000.000/0000-00 ou 14 dígitos
- RG: formato varia por estado (SP: 00.000.000-0, outros estados diferentes)
- CEP: 00000-000 ou 8 dígitos
- Título de eleitor: 12 dígitos
- PIS/PASEP: 11 dígitos com validação
- Carteira de habilitação (CNH): 11 dígitos
A Brainiall usa um modelo ONNX customizado treinado em documentos brasileiros + regex validados para capturar esses tipos com 98%+ precisão.
🎧 Ouça a narração completa (vídeo demo em produção)
Diferença entre detecção e anonimização
Detectar é só o primeiro passo. O que fazer depois depende do contexto:
- Anonimização reversível: substituir por token (ex:
CPF_USR_42) mantendo mapping em vault criptografado. Útil para análise agregada sem expor identidade. - Redação completa: substituir por
[REDACTED]. Útil para publicar logs ou relatórios externamente. - Pseudonimização: substituir por valor plausível mas falso (CPF inválido com formato correto). Útil para ambientes de teste.
- Remoção: deletar completamente. Para GDPR/LGPD art. 18 requests.
O endpoint da Brainiall oferece todos os 4 modos via parâmetro mode.
Integrando com seu pipeline
Fluxo típico em empresa:
1. Discovery: scan periódico (semanal) em todas as fontes de dados — bancos, S3, logs, email
2. Classificação: marcar onde PII está, qual tipo, criticidade
3. Minimização: dados PII que não precisam mais = delete ou move para cold storage criptografado
4. Request fulfillment: quando usuário pede export/delete, localização rápida via index
A API de detecção é apenas uma camada desse pipeline. Você precisa também de infra de metadados, audit log, mapeamento.

Armadilhas comuns
- Falsos positivos: número de telefone aleatório em um texto sobre "linha 555-1234" pode ser marcado como telefone real
- Contexto importa: "meu CPF é 000.000.000-00" vs "o documento listou CPFs anônimos" — o segundo não é PII real
- Base64: PII escondido em strings codificadas não é detectado sem decodificação prévia
- OCR errors: CPFs scaneados com caracteres trocados (O em vez de 0) passam despercebidos
- Nomes compostos: "Maria dos Santos" é fácil; "José" isolado pode ser só uma palavra
Teste agora mesmo
No chat Brainiall peça "detecte PII neste texto: [cole conteúdo]". Ou via API em /api/nlp/pii. Para compliance escala-empresa, Business R$99 oferece batch API + retenção log auditoria por 12 meses.