Metinlerdeki dili otomatik olarak tespit edin

iniciante · 7 min · Por Ana Brainiall

Otomatik dil tespiti neden bu kadar işe yarar

Gerçek hayattan senaryolar:

Çok dilli chatbot: Kullanıcı "Hola, como estoy?" yazar → İspanyolca tespit edilir → Varsayılan dil yerine İspanyolca yanıt verilir
Küresel içerik akışı: Haber toplayıcı, çeviri yapmadan önce makaleleri dile göre gruplamak zorundadır
Destek: Japonca gelen bir destek talebi Japonya ekibine yönlendirilmeli, Brezilya ekibine değil
Moderasyon: Hassas içerik kuralları bölgeye ve dile göre farklılık gösterir
Analitik: Kitlenizin dilsel çeşitliliğini ölçün

Facebook'un açık kaynaklı modeli fastText language identification, 176 dili metin başına 10ms'den kısa sürede tespit eder.

mapa-mundi estilizado com balões de texto em vários idiomas saindo de cada regiã

Model dilleri nasıl ayırt eder

fastText, her kelimeyi karakter n-gram'ları (subword'ler) olarak temsil eder. Ardından bu vektörleri toplar ve softmax regresyonu ile sınıflandırır. Neden işe yarar:

Portekizcede "ção", "nh", "lh" gibi karakteristik yapılar bulunur
İngilizcede "th", "ing", "ed" kalıpları öne çıkar
Almancada "sch", "ch", "äöü" karakteristiktir
Pinyin ile yazılmış Mandarin, hanzi'den tamamen farklı örüntüler sergiler

Model, n-gram'ların istatistiksel imzasına bakarak karar verir. 3 kelimeden kısa metinler belirsiz olabilir; 20 ve üzeri kelime içeren metinlerde doğruluk %99'u aşar.

Zorlu durumlar ve nasıl başa çıkılır

Code-switching: İki dili karıştıran metinler ("Hello, tudo bem?") — model baskın dili döndürür, ancak güven skoru düşer
Yakın diller: Portekizce, İspanyolca ve Katalanca — fastText %90+ doğrulukla çalışır, ancak sınır durumlar mevcuttur
Transliterasyon: Pinyin ile yazılmış Çince veya Latin harflerle yazılmış Arapça — model bunları yanlışlıkla "İngilizce" olarak algılayabilir
Çok kısa metinler: "OK" gibi ifadeler herhangi bir dile ait olabilir — düşük güven skoru döner, eşik değeri kullanmanız şarttır
Kaynak kodu: Programlama kodu "İngilizce" olarak tespit edilir — gerekirse önceden filtreleyin

Önerilen eşik: Yalnızca güven skoru 0,75'in üzerindeki tespitleri kabul edin. Altında kalanları "bilinmiyor" olarak işaretleyin ve insan onayına gönderin.

gráfico mostrando confidence scores para 5 frases — uma curta "OK" (0.4), uma lo

Stack'inize entegrasyon

Tipik Python örneği:

`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/language",
json={"text": "Hola, ¿cómo estás hoy?"},
headers={"Authorization": "Bearer brnl-xxx"}
)
# {"language": "es", "confidence": 0.96, "top_3": [
# {"lang": "es", "conf": 0.96},
# {"lang": "pt", "conf": 0.02},
# {"lang": "ca", "conf": 0.01}
# ]}
`

Düşük güven durumlarında alternatifleri göstermek istediğinizde top_3 kullanın (örn: "İspanyolca gibi görünüyor, ancak Katalanca olabilir — lütfen onaylayın").

Gelişmiş kullanım senaryoları

NLP ön işleme: Duygu analizinden önce dili tespit edin ve doğru modele yönlendirin
Filtreleme: Büyük veri setlerinde hedef dil dışındaki metinleri temizleyin
Trafik yönlendirme: Çok dilli kümeler arasında yük dengelemesi yapın
Segmentasyon: Karışık dil içeren uzun belgeleri dile göre bölümlere ayırın
Arama: Kullanıcıların "bu platformda yalnızca Türkçe içerikleri göster" gibi sorgular yapmasına olanak tanıyın

Hemen deneyin

Brainiall sohbet arayüzünde "bu metnin dilini tespit et: [yapıştırın]" yazmanız yeterli. API: /api/nlp/language. Tipik gecikme süresi 10ms'nin altında — gerçek zamanlı kullanım için idealdir. Pro planında cömert kullanım hakkı mevcuttur; Business planı ise toplu işlem için Batch API içerir.