Ana Brainiall

Extrayez automatiquement noms, entreprises et dates de vos textes

iniciante · 8 min · Por Ana Brainiall

Ce que la NER résout là où les regex échouent

Les regex sont parfaites pour les formats rigides : un code postal a toujours le même nombre de chiffres, un email contient toujours un @. Mais les noms de personnes, d'entreprises et les dates n'ont pas de format fixe :

La NER s'appuie sur un modèle de langage capable de comprendre le contexte : "la société Itaú" vs "la rue Itaú". Les regex ne peuvent pas faire cette distinction ; la NER y parvient dans plus de 95 % des cas.

texto de exemplo colorido com highlights em cores diferentes — nomes em azul, em

Entités standard et personnalisées

Les modèles NER publics (spaCy, HuggingFace) détectent :

Pour des domaines spécifiques, vous pouvez entraîner un modèle personnalisé. Exemples :

Brainiall propose des modèles personnalisés sur demande dans le plan Business.

Comment ça fonctionne en coulisses (en 30 secondes)

1. Tokenisation : le texte est découpé en mots et en ponctuation
2. POS tagging : chaque mot reçoit une catégorie grammaticale (nom, verbe…)
3. Contextualisation : chaque mot est converti en un vecteur de 768+ dimensions en tenant compte de ses voisins
4. Classification BIO : chaque token est étiqueté Begin-entity, Inside-entity ou Outside. Ex. : "Pedro" (B-PER) "Silva" (I-PER) "travaille" (O) "chez" (O) "Petrobras" (B-ORG)
5. Agrégation : les tokens B+I consécutifs forment une entité unique

Les modèles modernes (mBERT, XLM-R, multilingual DeBERTa) exécutent ce pipeline en ~10 à 50 ms pour un paragraphe.

Cas d'usage concrets

Limitations spécifiques au portugais brésilien

Conseil : pour les cas limites, passez toujours 100 exemples en revue manuellement avant de passer en production.

Intégration via API

Un endpoint unique retourne un tableau d'entités :

`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/ner",
json={"text": "Pedro Silva, da Petrobras, anunciou em 5 de janeiro."},
headers={"Authorization": "Bearer brnl-xxx"}
)
# [{"text": "Pedro Silva", "type": "PER", "start": 0, "end": 11},
# {"text": "Petrobras", "type": "ORG", "start": 16, "end": 25},
# {"text": "5 de janeiro", "type": "DATE", "start": 40, "end": 52}]
`

Testez dès maintenant

Demandez "extrayez personnes, entreprises et dates de ce texte : [collez]" dans le chat Brainiall. Ou via l'API /api/nlp/ner. Le plan Pro à €5,49 inclut 10 000 requêtes/mois ; le plan Business offre le traitement par lots et des modèles personnalisés.

Ce cours vous a plu?

Débloquez 17 cours Pro + 40+ IA dans le chat + génération vidéo, musique et Studio complet.

Passer Pro · €5,49/mois

Annulez à tout moment · Sans engagement