Ana Brainiall

Extraia nomes, empresas e datas de textos automaticamente

iniciante · 8 min · Por Ana Brainiall

O que NER resolve que regex não resolve

Regex é ótimo para padrões rígidos: um CEP tem sempre 8 dígitos, um email tem sempre @. Mas nomes de pessoas, empresas e datas não têm padrão fixo:

NER usa um modelo de linguagem que aprende a entender contexto: "a empresa Itaú" vs "a rua Itaú". Regex não consegue essa distinção; NER consegue 95%+ das vezes.

texto de exemplo colorido com highlights em cores diferentes — nomes em azul, em

Entidades padrão e custom

Modelos NER públicos (spaCy, HuggingFace) detectam:

Para domínios específicos, você pode treinar um modelo custom. Exemplos:

A Brainiall oferece modelos custom sob demanda no plano Business.

Como funciona por dentro (em 30 segundos)

1. Tokenização: texto é quebrado em palavras e pontuação
2. POS tagging: cada palavra recebe uma classe gramatical (substantivo, verbo...)
3. Contextualização: cada palavra é convertida em um vetor de 768+ dimensões considerando suas vizinhas
4. Classificação BIO: cada token é marcado como Begin-entity, Inside-entity, ou Outside. Ex: "Pedro" (B-PER) "Silva" (I-PER) "trabalha" (O) "na" (O) "Petrobras" (B-ORG)
5. Agregação: tokens B+I consecutivos viram uma entidade única

Modelos modernos (mBERT, XLM-R, multilingual DeBERTa) rodam esse pipeline em ~10-50ms para um parágrafo.

🎧 Ouça a narração completa (vídeo demo em produção)

Casos de uso práticos

Limitações específicas do PT-BR

Dica: para casos borderline, sempre revise 100 exemplos manualmente antes de colocar em produção.

Integrando via API

Endpoint único retorna array de entidades:

`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/ner",
json={"text": "Pedro Silva, da Petrobras, anunciou em 5 de janeiro."},
headers={"Authorization": "Bearer brnl-xxx"}
)
# [{"text": "Pedro Silva", "type": "PER", "start": 0, "end": 11},
# {"text": "Petrobras", "type": "ORG", "start": 16, "end": 25},
# {"text": "5 de janeiro", "type": "DATE", "start": 40, "end": 52}]
`

Teste agora mesmo

Peça "extraia pessoas, empresas e datas deste texto: [cole]" no chat Brainiall. Ou via API /api/nlp/ner. Pro R$29 tem 10k requests/mês; Business oferece batch + modelos custom.

🎁 Indique amigos, ganhe mês grátis

Cada 3 indicados que assinam Pro = R$29 de crédito no seu próximo ciclo.

Ver meu código →