Ana Brainiall

Phát hiện ngôn ngữ trong văn bản đa ngôn ngữ

iniciante · 7 min · Por Ana Brainiall

Tại sao tự động phát hiện ngôn ngữ lại hữu ích

Các tình huống thực tế:

Mô hình fastText language identification, mã nguồn mở từ Facebook, phát hiện 176 ngôn ngữ trong chưa đến 10ms mỗi đoạn văn bản.

mapa-mundi estilizado com balões de texto em vários idiomas saindo de cada regiã

Mô hình phân biệt ngôn ngữ như thế nào

fastText biểu diễn mỗi từ dưới dạng n-gram ký tự (subwords), sau đó tổng hợp các vector đó và phân loại bằng hồi quy softmax. Lý do hoạt động hiệu quả:

Mô hình nhìn vào dấu hiệu thống kê của các n-gram để đưa ra quyết định. Văn bản ngắn (dưới 3 từ) thường mơ hồ; văn bản từ 20 từ trở lên đạt độ chính xác > 99%.

Các trường hợp khó và cách xử lý

Ngưỡng khuyến nghị: chỉ chấp nhận kết quả phát hiện khi confidence > 0.75. Dưới mức đó, đánh dấu là "unknown" và chuyển cho con người xử lý.

gráfico mostrando confidence scores para 5 frases — uma curta "OK" (0.4), uma lo

Tích hợp vào stack của bạn

Ví dụ Python điển hình:

`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/language",
json={"text": "Hola, ¿cómo estás hoy?"},
headers={"Authorization": "Bearer brnl-xxx"}
)
# {"language": "es", "confidence": 0.96, "top_3": [
# {"lang": "es", "conf": 0.96},
# {"lang": "pt", "conf": 0.02},
# {"lang": "ca", "conf": 0.01}
# ]}
`

Sử dụng top_3 khi bạn muốn hiển thị các lựa chọn thay thế trong trường hợp độ tin cậy thấp (ví dụ: "Có vẻ là tiếng Tây Ban Nha, nhưng cũng có thể là tiếng Catalan — vui lòng xác nhận").

Các trường hợp sử dụng nâng cao

Dùng thử ngay bây giờ

Nhập "phát hiện ngôn ngữ của đoạn văn bản này: [dán vào]" trong chat Brainiall. API tại /api/nlp/language. Độ trễ thông thường < 10ms — phù hợp cho các ứng dụng real-time. Gói Pro có hạn mức sử dụng rộng rãi; gói Business bao gồm batch API.

Thích khóa học?

Mở khóa 17 khóa học Pro + 40+ AI trong chat + tạo video, âm nhạc và Studio đầy đủ.

Lên Pro · $5.99/tháng

Hủy bất cứ lúc nào · Không ràng buộc