Belgelerde CPF, RG ve e-postayı otomatik olarak bulun
PII nedir ve LGPD sizi neden bulmaya zorluyor?
PII (Kişisel Olarak Tanımlanabilir Bilgi), bir kişiyi tanımlayan her türlü veridir: ad, CPF, RG, e-posta, telefon, adres, banka bilgileri, fotoğraf, biyometri. LGPD (Kanun 13.709/2018) kapsamında, Brezilyalı kullanıcılara ait PII saklıyorsanız şunları yapmanız gerekir:
1. Her PII'nin nerede depolandığını bilmek
2. Talep üzerine bir kullanıcıya ait tüm PII'yi dışa aktarabilmek (md. 18)
3. Kullanıcı "unutulma hakkı" talep ettiğinde verileri tamamen silmek
4. Her kişisel veriye kimin, ne zaman eriştiğini denetlemek
Sorun şu: PII, günlükler, e-postalar, Word belgeleri, destek talepleri, ekran görüntüleri ve geçmiş veritabanlarına dağılmış halde bulunur. 100'den fazla çalışanı olan bir şirkette PII'yi manuel olarak bulmak imkânsızdır.

Brezilya'ya özgü PII türleri
Uluslararası NER (Named Entity Recognition) modelleri ad, e-posta, telefon ve adresi iyi şekilde algılar. Brezilya için ise özel tanıma gereklidir:
- CPF: 000.000.000-00 veya 00000000000 formatı + doğrulama basamağı kontrolü
- CNPJ: 00.000.000/0000-00 veya 14 basamak
- RG: Format eyalete göre değişir (SP: 00.000.000-0, diğer eyaletler farklı)
- CEP: 00000-000 veya 8 basamak
- Seçmen kartı: 12 basamak
- PIS/PASEP: Doğrulamalı 11 basamak
- Sürücü belgesi (CNH): 11 basamak
Brainiall, bu türleri %98+ hassasiyetle yakalamak için Brezilya belgeleri üzerinde eğitilmiş özel bir ONNX modeli ve doğrulanmış regex ifadeleri kullanır.
Tespit ile anonimleştirme arasındaki fark
Tespit yalnızca ilk adımdır. Sonrasında ne yapılacağı bağlama göre değişir:
- Geri alınabilir anonimleştirme: Şifreli bir kasada eşleme tutularak token ile değiştirme (örn.
CPF_USR_42). Kimliği açığa çıkarmadan toplu analiz için idealdir. - Tam redaksiyon:
[REDACTED]ile değiştirme. Günlükleri veya raporları harici olarak yayımlamak için kullanışlıdır. - Takma ad kullanımı: Geçerli formatta ancak geçersiz değerle değiştirme (yanlış CPF). Test ortamları için idealdir.
- Silme: Tamamen kaldırma. GDPR/LGPD md. 18 talepleri için geçerlidir.
Brainiall endpoint'i, mode parametresi aracılığıyla bu 4 modun tamamını sunar.
Pipeline'ınızla entegrasyon
Şirketlerde tipik iş akışı:
1. Keşif: Tüm veri kaynaklarında (veritabanları, S3, günlükler, e-posta) periyodik (haftalık) tarama
2. Sınıflandırma: PII'nin nerede olduğunu, türünü ve kritiklik düzeyini işaretleme
3. Minimizasyon: Artık gerekmeyen PII verileri silme veya şifreli soğuk depolamaya taşıma
4. Talep karşılama: Kullanıcı dışa aktarma/silme talebinde bulunduğunda index aracılığıyla hızlı konumlandırma
Tespit API'si bu pipeline'ın yalnızca bir katmanıdır. Ayrıca meta veri altyapısı, denetim günlüğü ve veri haritalama da gereklidir.

Yaygın tuzaklar
- Yanlış pozitifler: "555-1234 hattı" hakkındaki bir metindeki rastgele telefon numarası gerçek bir telefon olarak işaretlenebilir
- Bağlam önemlidir: "CPF'm 000.000.000-00" ile "belgede anonim CPF'ler listelendi" ifadeleri farklıdır — ikincisi gerçek PII değildir
- Base64: Kodlanmış dizelerde gizlenmiş PII, önceden çözülmeden tespit edilemez
- OCR hataları: Karakter karışıklığıyla taranan CPF'ler (0 yerine O) gözden kaçabilir
- Bileşik isimler: "Maria dos Santos" kolayca tanınır; tek başına "José" ise yalnızca bir kelime olabilir
Hemen deneyin
Brainiall sohbetinde "bu metindeki PII'yi tespit et: [içeriği yapıştırın]" isteğinde bulunun. Ya da /api/nlp/pii üzerinden API ile kullanın. Kurumsal ölçekte uyumluluk için Business planı (99 R$), toplu API erişimi ve 12 aylık denetim günlüğü saklama özelliği sunar.