Ana Brainiall

Detecte idioma em textos multilíngues

iniciante · 7 min · Por Ana Brainiall

Por que detectar idioma automaticamente é útil

Cenários reais:

O modelo fastText language identification, open source do Facebook, detecta 176 idiomas em menos de 10ms por texto.

mapa-mundi estilizado com balões de texto em vários idiomas saindo de cada regiã

Como o modelo distingue idiomas

fastText representa cada palavra como n-grams de caracteres (subwords). Depois soma esses vetores e classifica com regressão softmax. Por que funciona:

O modelo olha a assinatura estatística dos n-grams e decide. Textos curtos (<3 palavras) são ambíguos; textos com 20+ palavras têm precisão > 99%.

Casos difíceis e como lidar

Threshold recomendado: só aceite detecção com confidence > 0.75. Abaixo disso, marcar como "unknown" e pedir humano.

gráfico mostrando confidence scores para 5 frases — uma curta "OK" (0.4), uma lo

Integrando na sua stack

Exemplo Python típico:

`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/language",
json={"text": "Hola, ¿cómo estás hoy?"},
headers={"Authorization": "Bearer brnl-xxx"}
)
# {"language": "es", "confidence": 0.96, "top_3": [
# {"lang": "es", "conf": 0.96},
# {"lang": "pt", "conf": 0.02},
# {"lang": "ca", "conf": 0.01}
# ]}
`

Use top_3 quando quer mostrar alternativas para casos de baixa confiança (ex: "Parece ser espanhol, mas pode ser catalão — confirme").

Casos de uso avançados

Teste agora mesmo

Peça "detecte o idioma deste texto: [cole]" no chat Brainiall. API em /api/nlp/language. Latência típica < 10ms — apropriado para uso em real-time. Pro R$29 tem uso generoso; Business inclui batch API.

🎁 Indique amigos, ganhe mês grátis

Cada 3 indicados que assinam Pro = R$29 de crédito no seu próximo ciclo.

Ver meu código →