Extraia nomes, empresas e datas de textos automaticamente

iniciante · 8 min · Por Ana Brainiall

O que NER resolve que regex não resolve

Regex é ótimo para padrões rígidos: um CEP tem sempre 8 dígitos, um email tem sempre @. Mas nomes de pessoas, empresas e datas não têm padrão fixo:

"Pedro Silva", "Maria da Conceição dos Santos", "Dr. Fernando" — todos nomes
"Petrobras", "Banco do Brasil", "Itaú Unibanco SA", "Loja do Seu Zé" — todos empresas
"5 de janeiro", "05/01/2026", "sexta passada", "próximo mês" — todas datas

NER usa um modelo de linguagem que aprende a entender contexto: "a empresa Itaú" vs "a rua Itaú". Regex não consegue essa distinção; NER consegue 95%+ das vezes.

texto de exemplo colorido com highlights em cores diferentes — nomes em azul, em

Entidades padrão e custom

Modelos NER públicos (spaCy, HuggingFace) detectam:

PER (Pessoa): Pedro Silva, Dr. João
ORG (Organização): Petrobras, Google
LOC (Lugar): São Paulo, Brasil
DATE: 5 de janeiro, 2026
MONEY: R$ 1.500, USD 200
TIME: 15h30, às 9 da manhã
PERCENT: 20%, 0.5

Para domínios específicos, você pode treinar um modelo custom. Exemplos:

Jurídico: leis (Lei 13.709), processos (N° 1234567-89.2024), varas
Médico: medicamentos, doenças (CID-10), procedimentos
Financeiro: tickers de ações, agências, contas

A Brainiall oferece modelos custom sob demanda no plano Business.

Como funciona por dentro (em 30 segundos)

1. Tokenização: texto é quebrado em palavras e pontuação
2. POS tagging: cada palavra recebe uma classe gramatical (substantivo, verbo...)
3. Contextualização: cada palavra é convertida em um vetor de 768+ dimensões considerando suas vizinhas
4. Classificação BIO: cada token é marcado como Begin-entity, Inside-entity, ou Outside. Ex: "Pedro" (B-PER) "Silva" (I-PER) "trabalha" (O) "na" (O) "Petrobras" (B-ORG)
5. Agregação: tokens B+I consecutivos viram uma entidade única

Modelos modernos (mBERT, XLM-R, multilingual DeBERTa) rodam esse pipeline em ~10-50ms para um parágrafo.

🎧 Ouça a narração completa (vídeo demo em produção)

Casos de uso práticos

CRM enrichment: extrair empresas e contatos de emails para atualizar base
Análise de notícias: monitorar menções de sua marca, concorrentes, executivos em mídia
Compliance: encontrar nomes de pessoas em documentos para auditoria LGPD
Research: extrair autores, citações, datas de papers acadêmicos em escala
Análise jurídica: identificar partes processuais, leis citadas, datas de julgamento

Limitações específicas do PT-BR

Nomes compostos com preposições: "Maria dos Santos" — alguns modelos cortam em "Maria" + "Santos" como duas entidades
Empresas familiares sem LTDA: "Padaria do Zé" pode passar como descrição, não entidade
Apelidos: "Lula" como pessoa vs "lula" como comida — caso sensitivity varia
Endereços brasileiros: Rua + nome + número + CEP — segmentação pode errar
Siglas: "USP" como entidade ou só como palavra?

Dica: para casos borderline, sempre revise 100 exemplos manualmente antes de colocar em produção.

Integrando via API

Endpoint único retorna array de entidades:

`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/ner",
json={"text": "Pedro Silva, da Petrobras, anunciou em 5 de janeiro."},
headers={"Authorization": "Bearer brnl-xxx"}
)
# [{"text": "Pedro Silva", "type": "PER", "start": 0, "end": 11},
# {"text": "Petrobras", "type": "ORG", "start": 16, "end": 25},
# {"text": "5 de janeiro", "type": "DATE", "start": 40, "end": 52}]
`

Teste agora mesmo

Peça "extraia pessoas, empresas e datas deste texto: [cole]" no chat Brainiall. Ou via API /api/nlp/ner. Pro R$29 tem 10k requests/mês; Business oferece batch + modelos custom.