Trouvez automatiquement CPF, RG et email dans vos documents
Qu'est-ce que la PII et pourquoi la LGPD vous oblige à la localiser
La PII (Personally Identifiable Information) désigne toute donnée permettant d'identifier une personne : nom, CPF, RG, email, téléphone, adresse, coordonnées bancaires, photo, biométrie. En vertu de la LGPD (Lei 13.709/2018), si vous stockez des PII d'utilisateurs brésiliens, vous devez :
1. Savoir où chaque PII est stockée
2. Pouvoir exporter toutes les PII d'un utilisateur sur demande (art. 18)
3. Les supprimer intégralement lorsque l'utilisateur exerce son « droit à l'oubli »
4. Auditer qui a accédé à chaque donnée personnelle et à quel moment
Le problème : les PII se retrouvent éparpillées dans des logs, des emails, des documents Word, des tickets de support, des captures d'écran, des bases de données historiques. Localiser les PII manuellement est impossible dans une entreprise de plus de 100 employés.

Les types de PII spécifiques au Brésil
Les modèles NER (Named Entity Recognition) internationaux détectent bien les noms, emails, numéros de téléphone et adresses. Pour le Brésil, une reconnaissance spécifique est nécessaire :
- CPF : format 000.000.000-00 ou 00000000000 + validation des chiffres de contrôle
- CNPJ : 00.000.000/0000-00 ou 14 chiffres
- RG : le format varie selon l'État (SP : 00.000.000-0, autres États différents)
- CEP : 00000-000 ou 8 chiffres
- Titre électoral : 12 chiffres
- PIS/PASEP : 11 chiffres avec validation
- Permis de conduire (CNH) : 11 chiffres
Brainiall utilise un modèle ONNX personnalisé, entraîné sur des documents brésiliens, combiné à des expressions régulières validées pour capturer ces types avec une précision supérieure à 98 %.
Différence entre détection et anonymisation
La détection n'est que la première étape. La suite dépend du contexte :
- Anonymisation réversible : remplacement par un token (ex. :
CPF_USR_42) avec conservation du mapping dans un vault chiffré. Idéal pour l'analyse agrégée sans exposer l'identité. - Rédaction complète : remplacement par
[REDACTED]. Idéal pour publier des logs ou des rapports en externe. - Pseudonymisation : remplacement par une valeur plausible mais fictive (CPF invalide au format correct). Idéal pour les environnements de test.
- Suppression : effacement total. Pour les demandes RGPD/LGPD art. 18.
L'endpoint Brainiall propose ces 4 modes via le paramètre mode.
Intégration dans votre pipeline
Flux typique en entreprise :
1. Discovery : scan périodique (hebdomadaire) de toutes les sources de données — bases de données, S3, logs, emails
2. Classification : identifier où se trouvent les PII, leur type et leur niveau de criticité
3. Minimisation : les PII dont vous n'avez plus besoin → suppression ou déplacement vers un stockage froid chiffré
4. Traitement des demandes : lorsqu'un utilisateur demande un export ou une suppression, localisation rapide via l'index
L'API de détection n'est qu'une couche de ce pipeline. Vous aurez également besoin d'une infrastructure de métadonnées, d'un audit log et d'une cartographie des données.

Les pièges les plus courants
- Faux positifs : un numéro de téléphone aléatoire dans un texte mentionnant « la ligne 555-1234 » peut être identifié comme un vrai numéro
- Le contexte compte : « mon CPF est 000.000.000-00 » vs « le document liste des CPF anonymes » — le second ne constitue pas une vraie PII
- Base64 : les PII dissimulées dans des chaînes encodées ne sont pas détectées sans décodage préalable
- Erreurs d'OCR : les CPF scannés avec des caractères erronés (O à la place de 0) passent inaperçus
- Noms composés : « Maria dos Santos » est facile à détecter ; « José » isolé peut n'être qu'un mot ordinaire
Testez dès maintenant
Dans le chat Brainiall, demandez « détectez les PII dans ce texte : [collez votre contenu] ». Ou via API sur /api/nlp/pii. Pour une conformité à l'échelle de l'entreprise, l'offre Business à €18 inclut une batch API et la conservation des logs d'audit pendant 12 mois.