Finden Sie CPF, RG und E-Mail in Dokumenten automatisch

intermediario · 9 min · Por Ana Brainiall

Was ist PII und warum verpflichtet dich die LGPD dazu, es zu finden

PII (Personally Identifiable Information) sind alle Daten, die eine Person identifizieren: Name, Steueridentifikationsnummer, Personalausweisnummer, E-Mail, Telefon, Adresse, Bankdaten, Foto, Biometrie. Gemäß der LGPD (Lei 13.709/2018) müssen Sie, wenn Sie PII brasilianischer Nutzer speichern, folgendes sicherstellen:

1. Wissen, wo jede PII gespeichert ist
2. Alle PII eines Nutzers auf Anfrage exportieren können (Art. 18)
3. Diese vollständig löschen, wenn der Nutzer das „Recht auf Vergessenwerden" beansprucht
4. Protokollieren, wer wann auf welche personenbezogenen Daten zugegriffen hat

Das Problem: PII verteilt sich auf Logs, E-Mails, Word-Dokumente, Support-Tickets, Screenshots, historische Datenbanken. PII manuell zu finden ist in einem Unternehmen mit mehr als 100 Mitarbeitern unmöglich.

ilustração de uma empresa como uma caixa cheia de documentos/arquivos com lupas

Die spezifischen PII-Typen Brasiliens

Internationale NER-Modelle (Named Entity Recognition) erkennen Namen, E-Mail-Adressen, Telefonnummern und Adressen gut. Für Brasilien benötigen wir eine spezifische Erkennung:

CPF: Format 000.000.000-00 oder 00000000000 + Validierung der Prüfziffern
CNPJ: 00.000.000/0000-00 oder 14 Ziffern
RG: Format variiert je nach Bundesstaat (SP: 00.000.000-0, andere Bundesstaaten unterschiedlich)
CEP: 00000-000 oder 8 Ziffern
Wählerausweis (Título de eleitor): 12 Ziffern
PIS/PASEP: 11 Ziffern mit Validierung
Führerschein (CNH): 11 Ziffern

Brainiall verwendet ein benutzerdefiniertes ONNX-Modell, das auf brasilianischen Dokumenten trainiert wurde, sowie validierte reguläre Ausdrücke (Regex), um diese Typen mit einer Genauigkeit von 98%+ zu erfassen.

Unterschied zwischen Erkennung und Anonymisierung

Erkennen ist nur der erste Schritt. Was danach zu tun ist, hängt vom Kontext ab:

Reversible Anonymisierung: Ersetzen durch Token (z.B. CPF_USR_42) mit Speicherung des Mappings in einem verschlüsselten Vault. Nützlich für aggregierte Analysen ohne Preisgabe der Identität.
Vollständige Schwärzung: Ersetzen durch [REDACTED]. Nützlich für die externe Veröffentlichung von Logs oder Berichten.
Pseudonymisierung: Ersetzen durch einen plausiblen, aber falschen Wert (ungültige CPF mit korrektem Format). Nützlich für Testumgebungen.
Löschung: Vollständiges Entfernen. Für GDPR/LGPD Art. 18-Anfragen.

Der Endpoint von Brainiall bietet alle 4 Modi über den Parameter mode an.

Integrieren mit Ihrer Pipeline

Typischer Ablauf in einem Unternehmen:

1. Discovery: periodischer (wöchentlicher) Scan aller Datenquellen — Datenbanken, S3, Logs, E-Mail
2. Klassifizierung: markieren, wo PII vorhanden ist, welcher Typ, Kritikalität
3. Minimierung: PII-Daten, die nicht mehr benötigt werden = löschen oder in verschlüsselten Cold Storage verschieben
4. Request fulfillment: wenn der Nutzer Export/Löschung anfordert, schnelle Lokalisierung über Index

Die Erkennungs-API ist nur eine Schicht dieser Pipeline. Sie benötigen außerdem eine Metadaten-Infrastruktur, ein Audit-Log und ein Mapping.

diagrama de 4 etapas do ciclo de vida de PII — Discovery → Classification → Mini

Häufige Fallstricke

Falsche Positive: Eine zufällige Telefonnummer in einem Text über "Leitung 555-1234" kann als echte Telefonnummer markiert werden
Kontext ist wichtig: "meine CPF ist 000.000.000-00" vs. "das Dokument listete anonyme CPFs auf" — das zweite ist keine echte PII
Base64: In kodierten Strings versteckte PII wird ohne vorherige Dekodierung nicht erkannt
OCR-Fehler: Gescannte CPFs mit vertauschten Zeichen (O statt 0) bleiben unbemerkt
Zusammengesetzte Namen: "Maria dos Santos" ist einfach; "José" allein kann nur ein gewöhnliches Wort sein

Teste jetzt gleich

Im Brainiall-Chat bitten Sie um „PII in diesem Text erkennen: [Inhalt einfügen]". Oder über API unter /api/nlp/pii. Für unternehmensweite Compliance bietet Business €18 Batch-API + Audit-Log-Aufbewahrung für 12 Monate.