Ana Brainiall

Deteksi bahasa dalam teks multibahasa

iniciante · 7 min · Por Ana Brainiall

Mengapa deteksi bahasa otomatis itu berguna

Skenario nyata:

Model fastText language identification, open source dari Facebook, mendeteksi 176 bahasa dalam waktu kurang dari 10ms per teks.

mapa-mundi estilizado com balões de texto em vários idiomas saindo de cada regiã

Bagaimana model membedakan bahasa

fastText merepresentasikan setiap kata sebagai n-gram karakter (subwords). Kemudian menjumlahkan vektor-vektor tersebut dan mengklasifikasikan dengan regresi softmax. Mengapa ini berhasil:

Model melihat tanda tangan statistik dari n-gram dan membuat keputusan. Teks pendek (<3 kata) bersifat ambigu; teks dengan 20+ kata memiliki akurasi > 99%.

Kasus sulit dan cara mengatasinya

Threshold yang disarankan: hanya terima deteksi dengan confidence > 0.75. Di bawah itu, tandai sebagai "unknown" dan minta konfirmasi manusia.

gráfico mostrando confidence scores para 5 frases — uma curta "OK" (0.4), uma lo

Integrasi ke dalam stack Anda

Contoh Python umum:

`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/language",
json={"text": "Hola, ¿cómo estás hoy?"},
headers={"Authorization": "Bearer brnl-xxx"}
)
# {"language": "es", "confidence": 0.96, "top_3": [
# {"lang": "es", "conf": 0.96},
# {"lang": "pt", "conf": 0.02},
# {"lang": "ca", "conf": 0.01}
# ]}
`

Gunakan top_3 saat ingin menampilkan alternatif untuk kasus kepercayaan rendah (contoh: "Sepertinya bahasa Spanyol, tapi bisa jadi Katalan — mohon konfirmasi").

Kasus penggunaan tingkat lanjut

Coba sekarang juga

Ketik "deteksi bahasa dari teks ini: [tempel]" di chat Brainiall. API tersedia di /api/nlp/language. Latensi tipikal < 10ms — cocok untuk penggunaan real-time. Paket Pro sudah mencakup penggunaan yang luas; paket Business menyertakan batch API.

Suka kursusnya?

Buka 17 kursus Pro + 40+ AI di chat + pembuatan video, musik, dan Studio lengkap.

Jadi Pro · Rp 49rb/bulan

Batalkan kapan saja · Tanpa komitmen