Ana Brainiall

Tự động tìm CPF, RG và email trong tài liệu

intermediario · 9 min · Por Ana Brainiall

PII là gì và tại sao LGPD bắt buộc bạn phải tìm kiếm nó

PII (Personally Identifiable Information) là bất kỳ dữ liệu nào có thể xác định danh tính một người: tên, CPF, RG, email, số điện thoại, địa chỉ, thông tin ngân hàng, ảnh, dữ liệu sinh trắc học. Theo LGPD (Luật 13.709/2018), nếu bạn lưu trữ PII của người dùng Brazil, bạn cần:

1. Biết nơi mỗi PII được lưu trữ
2. Có khả năng xuất toàn bộ PII của một người dùng theo yêu cầu (điều 18)
3. Xóa hoàn toàn khi người dùng yêu cầu "quyền được quên"
4. Kiểm tra ai đã truy cập từng dữ liệu cá nhân và khi nào

Vấn đề: PII thường bị phân tán trong log, email, tài liệu Word, ticket hỗ trợ, ảnh chụp màn hình, cơ sở dữ liệu lịch sử. Tìm PII thủ công là điều không thể đối với công ty có hơn 100 nhân viên.

ilustração de uma empresa como uma caixa cheia de documentos/arquivos com lupas

Các loại PII đặc thù của Brazil

Các mô hình NER (Named Entity Recognition) quốc tế nhận diện tốt tên, email, số điện thoại, địa chỉ. Đối với Brazil, chúng ta cần nhận diện đặc thù:

Brainiall sử dụng mô hình ONNX tùy chỉnh được huấn luyện trên tài liệu Brazil kết hợp với regex đã được xác thực để nắm bắt các loại này với độ chính xác 98%+.

Sự khác biệt giữa phát hiện và ẩn danh hóa

Phát hiện chỉ là bước đầu tiên. Việc xử lý tiếp theo phụ thuộc vào ngữ cảnh:

Endpoint của Brainiall cung cấp cả 4 chế độ thông qua tham số mode.

Tích hợp vào pipeline của bạn

Quy trình điển hình trong doanh nghiệp:

1. Khám phá: quét định kỳ (hàng tuần) trên tất cả các nguồn dữ liệu — cơ sở dữ liệu, S3, log, email
2. Phân loại: đánh dấu vị trí PII, loại và mức độ nghiêm trọng
3. Tối thiểu hóa: PII không còn cần thiết = xóa hoặc chuyển sang cold storage được mã hóa
4. Xử lý yêu cầu: khi người dùng yêu cầu xuất/xóa, định vị nhanh qua index

API phát hiện chỉ là một lớp trong pipeline này. Bạn cũng cần hạ tầng metadata, audit log và bản đồ dữ liệu.

diagrama de 4 etapas do ciclo de vida de PII — Discovery → Classification → Mini

Những cạm bẫy thường gặp

Dùng thử ngay bây giờ

Trong chat Brainiall, hãy yêu cầu "phát hiện PII trong văn bản này: [dán nội dung]". Hoặc qua API tại /api/nlp/pii. Để tuân thủ ở quy mô doanh nghiệp, gói Business $19 cung cấp batch API và lưu trữ audit log trong 12 tháng.

Thích khóa học?

Mở khóa 17 khóa học Pro + 40+ AI trong chat + tạo video, âm nhạc và Studio đầy đủ.

Lên Pro · $5.99/tháng

Hủy bất cứ lúc nào · Không ràng buộc