Ana Brainiall

Extrae nombres, empresas y fechas de textos automáticamente

iniciante · 8 min · Por Ana Brainiall

Qué resuelve NER que regex no puede resolver

Regex es ideal para patrones rígidos: un código postal siempre tiene el mismo formato, un email siempre tiene @. Pero los nombres de personas, empresas y fechas no tienen un patrón fijo:

NER utiliza un modelo de lenguaje que aprende a entender el contexto: "la empresa Itaú" vs "la calle Itaú". Regex no puede hacer esa distinción; NER lo logra en más del 95% de los casos.

texto de exemplo colorido com highlights em cores diferentes — nomes em azul, em

Entidades estándar y personalizadas

Los modelos NER públicos (spaCy, HuggingFace) detectan:

Para dominios específicos, puedes entrenar un modelo personalizado. Ejemplos:

Brainiall ofrece modelos personalizados bajo demanda en el plan Business.

Cómo funciona por dentro (en 30 segundos)

1. Tokenización: el texto se divide en palabras y signos de puntuación
2. POS tagging: cada palabra recibe una categoría gramatical (sustantivo, verbo...)
3. Contextualización: cada palabra se convierte en un vector de 768+ dimensiones considerando las palabras vecinas
4. Clasificación BIO: cada token se marca como Begin-entity, Inside-entity u Outside. Ej: "Pedro" (B-PER) "Silva" (I-PER) "trabaja" (O) "en" (O) "Petrobras" (B-ORG)
5. Agregación: los tokens B+I consecutivos se convierten en una única entidad

Los modelos modernos (mBERT, XLM-R, multilingual DeBERTa) ejecutan este pipeline en ~10-50ms para un párrafo.

Casos de uso prácticos

Limitaciones específicas del español

Consejo: para casos límite, revisa siempre 100 ejemplos manualmente antes de pasar a producción.

Integración vía API

Un único endpoint devuelve un array de entidades:

`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/ner",
json={"text": "Pedro Silva, de Petrobras, anunció el 5 de enero."},
headers={"Authorization": "Bearer brnl-xxx"}
)
# [{"text": "Pedro Silva", "type": "PER", "start": 0, "end": 11},
# {"text": "Petrobras", "type": "ORG", "start": 16, "end": 25},
# {"text": "5 de enero", "type": "DATE", "start": 40, "end": 50}]
`

Pruébalo ahora mismo

Escribe "extrae personas, empresas y fechas de este texto: [pega aquí]" en el chat de Brainiall. O úsalo vía API en /api/nlp/ner. El plan Pro incluye 10k requests/mes; el plan Business ofrece procesamiento en batch y modelos personalizados.

¿Te gustó el curso?

Desbloquea 17 cursos Pro + 40+ IAs en chat + generación de video, música y Studio completo.

Hazte Pro · US$5.99/mes

Cancela cuando quieras · Sin compromiso