Extraia nomes, empresas e datas de textos automaticamente
O que NER resolve que regex não resolve
Regex é ótimo para padrões rígidos: um CEP tem sempre 8 dígitos, um email tem sempre @. Mas nomes de pessoas, empresas e datas não têm padrão fixo:
- "Pedro Silva", "Maria da Conceição dos Santos", "Dr. Fernando" — todos nomes
- "Petrobras", "Banco do Brasil", "Itaú Unibanco SA", "Loja do Seu Zé" — todos empresas
- "5 de janeiro", "05/01/2026", "sexta passada", "próximo mês" — todas datas
NER usa um modelo de linguagem que aprende a entender contexto: "a empresa Itaú" vs "a rua Itaú". Regex não consegue essa distinção; NER consegue 95%+ das vezes.

Entidades padrão e custom
Modelos NER públicos (spaCy, HuggingFace) detectam:
- PER (Pessoa): Pedro Silva, Dr. João
- ORG (Organização): Petrobras, Google
- LOC (Lugar): São Paulo, Brasil
- DATE: 5 de janeiro, 2026
- MONEY: R$ 1.500, USD 200
- TIME: 15h30, às 9 da manhã
- PERCENT: 20%, 0.5
Para domínios específicos, você pode treinar um modelo custom. Exemplos:
- Jurídico: leis (Lei 13.709), processos (N° 1234567-89.2024), varas
- Médico: medicamentos, doenças (CID-10), procedimentos
- Financeiro: tickers de ações, agências, contas
A Brainiall oferece modelos custom sob demanda no plano Business.
Como funciona por dentro (em 30 segundos)
1. Tokenização: texto é quebrado em palavras e pontuação
2. POS tagging: cada palavra recebe uma classe gramatical (substantivo, verbo...)
3. Contextualização: cada palavra é convertida em um vetor de 768+ dimensões considerando suas vizinhas
4. Classificação BIO: cada token é marcado como Begin-entity, Inside-entity, ou Outside. Ex: "Pedro" (B-PER) "Silva" (I-PER) "trabalha" (O) "na" (O) "Petrobras" (B-ORG)
5. Agregação: tokens B+I consecutivos viram uma entidade única
Modelos modernos (mBERT, XLM-R, multilingual DeBERTa) rodam esse pipeline em ~10-50ms para um parágrafo.
🎧 Ouça a narração completa (vídeo demo em produção)
Casos de uso práticos
- CRM enrichment: extrair empresas e contatos de emails para atualizar base
- Análise de notícias: monitorar menções de sua marca, concorrentes, executivos em mídia
- Compliance: encontrar nomes de pessoas em documentos para auditoria LGPD
- Research: extrair autores, citações, datas de papers acadêmicos em escala
- Análise jurídica: identificar partes processuais, leis citadas, datas de julgamento
Limitações específicas do PT-BR
- Nomes compostos com preposições: "Maria dos Santos" — alguns modelos cortam em "Maria" + "Santos" como duas entidades
- Empresas familiares sem LTDA: "Padaria do Zé" pode passar como descrição, não entidade
- Apelidos: "Lula" como pessoa vs "lula" como comida — caso sensitivity varia
- Endereços brasileiros: Rua + nome + número + CEP — segmentação pode errar
- Siglas: "USP" como entidade ou só como palavra?
Dica: para casos borderline, sempre revise 100 exemplos manualmente antes de colocar em produção.
Integrando via API
Endpoint único retorna array de entidades:
`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/ner",
json={"text": "Pedro Silva, da Petrobras, anunciou em 5 de janeiro."},
headers={"Authorization": "Bearer brnl-xxx"}
)
# [{"text": "Pedro Silva", "type": "PER", "start": 0, "end": 11},
# {"text": "Petrobras", "type": "ORG", "start": 16, "end": 25},
# {"text": "5 de janeiro", "type": "DATE", "start": 40, "end": 52}]`
Teste agora mesmo
Peça "extraia pessoas, empresas e datas deste texto: [cole]" no chat Brainiall. Ou via API /api/nlp/ner. Pro R$29 tem 10k requests/mês; Business oferece batch + modelos custom.