Tự động tìm CPF, RG và email trong tài liệu

intermediario · 9 min · Por Ana Brainiall

PII là gì và tại sao LGPD bắt buộc bạn phải tìm kiếm nó

PII (Personally Identifiable Information) là bất kỳ dữ liệu nào có thể xác định danh tính một người: tên, CPF, RG, email, số điện thoại, địa chỉ, thông tin ngân hàng, ảnh, dữ liệu sinh trắc học. Theo LGPD (Luật 13.709/2018), nếu bạn lưu trữ PII của người dùng Brazil, bạn cần:

1. Biết nơi mỗi PII được lưu trữ
2. Có khả năng xuất toàn bộ PII của một người dùng theo yêu cầu (điều 18)
3. Xóa hoàn toàn khi người dùng yêu cầu "quyền được quên"
4. Kiểm tra ai đã truy cập từng dữ liệu cá nhân và khi nào

Vấn đề: PII thường bị phân tán trong log, email, tài liệu Word, ticket hỗ trợ, ảnh chụp màn hình, cơ sở dữ liệu lịch sử. Tìm PII thủ công là điều không thể đối với công ty có hơn 100 nhân viên.

ilustração de uma empresa como uma caixa cheia de documentos/arquivos com lupas

Các loại PII đặc thù của Brazil

Các mô hình NER (Named Entity Recognition) quốc tế nhận diện tốt tên, email, số điện thoại, địa chỉ. Đối với Brazil, chúng ta cần nhận diện đặc thù:

CPF: định dạng 000.000.000-00 hoặc 00000000000 + xác thực chữ số kiểm tra
CNPJ: 00.000.000/0000-00 hoặc 14 chữ số
RG: định dạng thay đổi theo bang (SP: 00.000.000-0, các bang khác khác nhau)
CEP: 00000-000 hoặc 8 chữ số
Số thẻ cử tri: 12 chữ số
PIS/PASEP: 11 chữ số có xác thực
Bằng lái xe (CNH): 11 chữ số

Brainiall sử dụng mô hình ONNX tùy chỉnh được huấn luyện trên tài liệu Brazil kết hợp với regex đã được xác thực để nắm bắt các loại này với độ chính xác 98%+.

Sự khác biệt giữa phát hiện và ẩn danh hóa

Phát hiện chỉ là bước đầu tiên. Việc xử lý tiếp theo phụ thuộc vào ngữ cảnh:

Ẩn danh hóa có thể đảo ngược: thay thế bằng token (ví dụ: CPF_USR_42) và giữ ánh xạ trong vault được mã hóa. Hữu ích cho phân tích tổng hợp mà không lộ danh tính.
Biên tập hoàn toàn: thay thế bằng [REDACTED]. Hữu ích khi xuất bản log hoặc báo cáo ra bên ngoài.
Giả danh hóa: thay thế bằng giá trị hợp lý nhưng giả (CPF không hợp lệ với định dạng đúng). Hữu ích cho môi trường kiểm thử.
Xóa bỏ: xóa hoàn toàn. Dành cho các yêu cầu theo GDPR/LGPD điều 18.

Endpoint của Brainiall cung cấp cả 4 chế độ thông qua tham số mode.

Tích hợp vào pipeline của bạn

Quy trình điển hình trong doanh nghiệp:

1. Khám phá: quét định kỳ (hàng tuần) trên tất cả các nguồn dữ liệu — cơ sở dữ liệu, S3, log, email
2. Phân loại: đánh dấu vị trí PII, loại và mức độ nghiêm trọng
3. Tối thiểu hóa: PII không còn cần thiết = xóa hoặc chuyển sang cold storage được mã hóa
4. Xử lý yêu cầu: khi người dùng yêu cầu xuất/xóa, định vị nhanh qua index

API phát hiện chỉ là một lớp trong pipeline này. Bạn cũng cần hạ tầng metadata, audit log và bản đồ dữ liệu.

diagrama de 4 etapas do ciclo de vida de PII — Discovery → Classification → Mini

Những cạm bẫy thường gặp

Dương tính giả: số điện thoại ngẫu nhiên trong văn bản về "đường dây 555-1234" có thể bị đánh dấu là số điện thoại thật
Ngữ cảnh quan trọng: "CPF của tôi là 000.000.000-00" so với "tài liệu liệt kê các CPF ẩn danh" — trường hợp thứ hai không phải PII thật
Base64: PII ẩn trong các chuỗi được mã hóa sẽ không được phát hiện nếu không giải mã trước
Lỗi OCR: CPF được quét với ký tự bị nhầm (chữ O thay vì số 0) sẽ bị bỏ qua
Tên ghép: "Maria dos Santos" dễ nhận diện; "José" đứng một mình có thể chỉ là một từ thông thường

Dùng thử ngay bây giờ

Trong chat Brainiall, hãy yêu cầu "phát hiện PII trong văn bản này: [dán nội dung]". Hoặc qua API tại /api/nlp/pii. Để tuân thủ ở quy mô doanh nghiệp, gói Business $19 cung cấp batch API và lưu trữ audit log trong 12 tháng.