Temukan CPF, RG, dan email dalam dokumen secara otomatis
Apa itu PII dan mengapa LGPD mewajibkan Anda menemukannya
PII (Personally Identifiable Information) adalah data apa pun yang mengidentifikasi seseorang: nama, CPF, RG, email, telepon, alamat, data perbankan, foto, biometrik. Berdasarkan LGPD (Lei 13.709/2018), jika Anda menyimpan PII pengguna Brasil, Anda wajib:
1. Mengetahui di mana setiap PII disimpan
2. Mampu mengekspor semua PII pengguna atas permintaan (pasal 18)
3. Menghapus sepenuhnya ketika pengguna meminta "hak untuk dilupakan"
4. Mengaudit siapa yang mengakses setiap data pribadi dan kapan
Masalahnya: PII tersebar di log, email, dokumen Word, tiket dukungan, tangkapan layar, database historis. Menemukan PII secara manual adalah hal yang mustahil di perusahaan dengan lebih dari 100 karyawan.

Jenis-jenis PII khusus Brasil
Model NER (Named Entity Recognition) internasional mendeteksi nama, email, telepon, dan alamat dengan baik. Untuk Brasil, kita membutuhkan pengenalan yang lebih spesifik:
- CPF: format 000.000.000-00 atau 00000000000 + validasi digit verifikasi
- CNPJ: 00.000.000/0000-00 atau 14 digit
- RG: format bervariasi per negara bagian (SP: 00.000.000-0, negara bagian lain berbeda)
- CEP: 00000-000 atau 8 digit
- Título de eleitor: 12 digit
- PIS/PASEP: 11 digit dengan validasi
- SIM (CNH): 11 digit
Brainiall menggunakan model ONNX kustom yang dilatih pada dokumen Brasil + regex yang telah divalidasi untuk menangkap jenis-jenis ini dengan akurasi 98%+.
Perbedaan antara deteksi dan anonimisasi
Mendeteksi hanyalah langkah pertama. Apa yang dilakukan selanjutnya bergantung pada konteksnya:
- Anonimisasi reversibel: mengganti dengan token (contoh:
CPF_USR_42) sambil menyimpan pemetaan di vault terenkripsi. Berguna untuk analisis agregat tanpa mengekspos identitas. - Redaksi penuh: mengganti dengan
[REDACTED]. Berguna untuk mempublikasikan log atau laporan secara eksternal. - Pseudonimisasi: mengganti dengan nilai yang masuk akal namun palsu (CPF tidak valid dengan format yang benar). Berguna untuk lingkungan pengujian.
- Penghapusan: menghapus sepenuhnya. Untuk permintaan GDPR/LGPD pasal 18.
Endpoint Brainiall menawarkan keempat mode melalui parameter mode.
Mengintegrasikan dengan pipeline Anda
Alur kerja umum di perusahaan:
1. Discovery: pemindaian berkala (mingguan) di semua sumber data — database, S3, log, email
2. Klasifikasi: menandai di mana PII berada, jenisnya, dan tingkat kritisnya
3. Minimisasi: data PII yang tidak lagi diperlukan = hapus atau pindahkan ke cold storage terenkripsi
4. Pemenuhan permintaan: ketika pengguna meminta ekspor/penghapusan, lokasi cepat melalui indeks
API deteksi hanyalah satu lapisan dari pipeline ini. Anda juga membutuhkan infrastruktur metadata, audit log, dan pemetaan.

Jebakan umum yang perlu diwaspadai
- Positif palsu: nomor telepon acak dalam teks tentang "jalur 555-1234" bisa ditandai sebagai telepon nyata
- Konteks sangat penting: "CPF saya adalah 000.000.000-00" vs "dokumen mencantumkan CPF anonim" — yang kedua bukan PII nyata
- Base64: PII yang tersembunyi dalam string yang dikodekan tidak terdeteksi tanpa dekoding terlebih dahulu
- Kesalahan OCR: CPF yang dipindai dengan karakter yang tertukar (O sebagai pengganti 0) lolos tanpa terdeteksi
- Nama majemuk: "Maria dos Santos" mudah dikenali; "José" yang berdiri sendiri bisa jadi hanya sebuah kata biasa
Coba sekarang juga
Di chat Brainiall, minta "deteksi PII dalam teks ini: [tempel konten]". Atau melalui API di /api/nlp/pii. Untuk kepatuhan skala perusahaan, paket Business Rp 199rb menawarkan batch API + penyimpanan log audit selama 12 bulan.