Ana Brainiall

Tự động trích xuất tên, công ty và ngày tháng từ văn bản

iniciante · 8 min · Por Ana Brainiall

NER giải quyết những gì mà regex không làm được

Regex rất tốt cho các mẫu cố định: mã bưu chính luôn có đúng số chữ số, email luôn có @. Nhưng tên người, tên công ty và ngày tháng lại không có mẫu cố định:

NER sử dụng mô hình ngôn ngữ học được cách hiểu ngữ cảnh: "công ty Vietcombank" so với "đường Vietcombank". Regex không thể phân biệt được điều này; NER làm được trong hơn 95% trường hợp.

texto de exemplo colorido com highlights em cores diferentes — nomes em azul, em

Thực thể chuẩn và thực thể tùy chỉnh

Các mô hình NER công khai (spaCy, HuggingFace) nhận diện được:

Đối với các lĩnh vực chuyên biệt, bạn có thể huấn luyện mô hình tùy chỉnh. Ví dụ:

Brainiall cung cấp mô hình tùy chỉnh theo yêu cầu trong gói Business.

Cách hoạt động bên trong (trong 30 giây)

1. Tokenization: văn bản được tách thành từ và dấu câu
2. POS tagging: mỗi từ được gán một loại từ (danh từ, động từ...)
3. Ngữ cảnh hóa: mỗi từ được chuyển thành vector 768+ chiều có tính đến các từ lân cận
4. Phân loại BIO: mỗi token được đánh dấu là Begin-entity, Inside-entity hoặc Outside. Ví dụ: "Nguyễn" (B-PER) "Văn An" (I-PER) "làm việc" (O) "tại" (O) "Vinamilk" (B-ORG)
5. Tổng hợp: các token B+I liên tiếp được gộp thành một thực thể duy nhất

Các mô hình hiện đại (mBERT, XLM-R, multilingual DeBERTa) chạy pipeline này trong khoảng 10–50ms cho một đoạn văn.

Các trường hợp sử dụng thực tế

Hạn chế đặc thù với tiếng Việt

Mẹo: với các trường hợp khó phân loại, hãy luôn xem xét thủ công ít nhất 100 ví dụ trước khi đưa vào môi trường sản xuất.

Tích hợp qua API

Endpoint duy nhất trả về mảng các thực thể:

`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/ner",
json={"text": "Pedro Silva, da Petrobras, anunciou em 5 de janeiro."},
headers={"Authorization": "Bearer brnl-xxx"}
)
# [{"text": "Pedro Silva", "type": "PER", "start": 0, "end": 11},
# {"text": "Petrobras", "type": "ORG", "start": 16, "end": 25},
# {"text": "5 de janeiro", "type": "DATE", "start": 40, "end": 52}]
`

Dùng thử ngay bây giờ

Nhập "trích xuất người, công ty và ngày tháng từ đoạn văn này: [dán vào]" trong chat Brainiall. Hoặc gọi trực tiếp qua API /api/nlp/ner. Gói Pro có 10k requests/tháng; gói Business cung cấp xử lý batch và mô hình tùy chỉnh.

Thích khóa học?

Mở khóa 17 khóa học Pro + 40+ AI trong chat + tạo video, âm nhạc và Studio đầy đủ.

Lên Pro · $5.99/tháng

Hủy bất cứ lúc nào · Không ràng buộc