Extrayez automatiquement noms, entreprises et dates de vos textes
Ce que la NER résout là où les regex échouent
Les regex sont parfaites pour les formats rigides : un code postal a toujours le même nombre de chiffres, un email contient toujours un @. Mais les noms de personnes, d'entreprises et les dates n'ont pas de format fixe :
- "Pedro Silva", "Maria da Conceição dos Santos", "Dr. Fernando" — tous des noms
- "Petrobras", "Banco do Brasil", "Itaú Unibanco SA", "Loja do Seu Zé" — toutes des entreprises
- "5 janvier", "05/01/2026", "vendredi dernier", "le mois prochain" — toutes des dates
La NER s'appuie sur un modèle de langage capable de comprendre le contexte : "la société Itaú" vs "la rue Itaú". Les regex ne peuvent pas faire cette distinction ; la NER y parvient dans plus de 95 % des cas.

Entités standard et personnalisées
Les modèles NER publics (spaCy, HuggingFace) détectent :
- PER (Personne) : Pedro Silva, Dr. João
- ORG (Organisation) : Petrobras, Google
- LOC (Lieu) : São Paulo, Brésil
- DATE : 5 janvier, 2026
- MONEY : R$ 1 500, USD 200
- TIME : 15h30, à 9h du matin
- PERCENT : 20 %, 0,5
Pour des domaines spécifiques, vous pouvez entraîner un modèle personnalisé. Exemples :
- Juridique : lois (Lei 13.709), numéros de dossiers (N° 1234567-89.2024), tribunaux
- Médical : médicaments, maladies (CIM-10), actes médicaux
- Financier : tickers boursiers, agences, comptes
Brainiall propose des modèles personnalisés sur demande dans le plan Business.
Comment ça fonctionne en coulisses (en 30 secondes)
1. Tokenisation : le texte est découpé en mots et en ponctuation
2. POS tagging : chaque mot reçoit une catégorie grammaticale (nom, verbe…)
3. Contextualisation : chaque mot est converti en un vecteur de 768+ dimensions en tenant compte de ses voisins
4. Classification BIO : chaque token est étiqueté Begin-entity, Inside-entity ou Outside. Ex. : "Pedro" (B-PER) "Silva" (I-PER) "travaille" (O) "chez" (O) "Petrobras" (B-ORG)
5. Agrégation : les tokens B+I consécutifs forment une entité unique
Les modèles modernes (mBERT, XLM-R, multilingual DeBERTa) exécutent ce pipeline en ~10 à 50 ms pour un paragraphe.
Cas d'usage concrets
- Enrichissement CRM : extraire entreprises et contacts depuis des emails pour mettre à jour votre base de données
- Veille médiatique : surveiller les mentions de votre marque, de vos concurrents et de vos dirigeants dans la presse
- Conformité : repérer les noms de personnes dans des documents pour des audits réglementaires
- Recherche : extraire auteurs, citations et dates d'articles académiques à grande échelle
- Analyse juridique : identifier les parties impliquées, les lois citées et les dates d'audience
Limitations spécifiques au portugais brésilien
- Noms composés avec prépositions : "Maria dos Santos" — certains modèles segmentent en "Maria" + "Santos" comme deux entités distinctes
- Entreprises familiales sans mention légale : "Padaria do Zé" peut être interprétée comme une description, et non comme une entité
- Surnoms : "Lula" en tant que personne vs "lula" (calmar) en tant qu'aliment — la sensibilité à la casse varie
- Adresses brésiliennes : Rue + nom + numéro + code postal — la segmentation peut comporter des erreurs
- Sigles : "USP" est-il une entité ou un simple mot ?
Conseil : pour les cas limites, passez toujours 100 exemples en revue manuellement avant de passer en production.
Intégration via API
Un endpoint unique retourne un tableau d'entités :
`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/ner",
json={"text": "Pedro Silva, da Petrobras, anunciou em 5 de janeiro."},
headers={"Authorization": "Bearer brnl-xxx"}
)
# [{"text": "Pedro Silva", "type": "PER", "start": 0, "end": 11},
# {"text": "Petrobras", "type": "ORG", "start": 16, "end": 25},
# {"text": "5 de janeiro", "type": "DATE", "start": 40, "end": 52}]`
Testez dès maintenant
Demandez "extrayez personnes, entreprises et dates de ce texte : [collez]" dans le chat Brainiall. Ou via l'API /api/nlp/ner. Le plan Pro à €5,49 inclut 10 000 requêtes/mois ; le plan Business offre le traitement par lots et des modèles personnalisés.