Ana Brainiall

Namen, Unternehmen und Daten automatisch aus Texten extrahieren

iniciante · 8 min · Por Ana Brainiall

Was NER löst, das Regex nicht lösen kann

Regex ist ideal für starre Muster: Eine Postleitzahl hat immer eine feste Anzahl an Ziffern, eine E-Mail-Adresse enthält immer ein @. Aber Personennamen, Unternehmen und Datumsangaben folgen keinem festen Muster:

NER nutzt ein Sprachmodell, das lernt, Kontext zu verstehen: "das Unternehmen Itaú" vs. "die Straße Itaú". Regex kann diese Unterscheidung nicht treffen; NER schafft das in über 95 % der Fälle.

texto de exemplo colorido com highlights em cores diferentes — nomes em azul, em

Standard- und benutzerdefinierte Entitäten

Öffentliche NER-Modelle (spaCy, HuggingFace) erkennen:

Für spezifische Fachbereiche können Sie ein benutzerdefiniertes Modell trainieren. Beispiele:

Brainiall bietet auf Anfrage benutzerdefinierte Modelle im Business-Plan an.

So funktioniert es im Hintergrund (in 30 Sekunden)

1. Tokenisierung: Der Text wird in Wörter und Satzzeichen aufgeteilt
2. POS-Tagging: Jedem Wort wird eine Wortart zugewiesen (Substantiv, Verb ...)
3. Kontextualisierung: Jedes Wort wird in einen Vektor mit 768+ Dimensionen umgewandelt, der die Nachbarwörter berücksichtigt
4. BIO-Klassifikation: Jedes Token wird als Begin-entity, Inside-entity oder Outside markiert. Beispiel: "Pedro" (B-PER) "Silva" (I-PER) "arbeitet" (O) "bei" (O) "Petrobras" (B-ORG)
5. Aggregation: Aufeinanderfolgende B+I-Tokens werden zu einer einzigen Entität zusammengefasst

Moderne Modelle (mBERT, XLM-R, multilingual DeBERTa) führen diese Pipeline in ~10–50 ms pro Absatz aus.

Praktische Anwendungsfälle

Spezifische Einschränkungen

Tipp: Überprüfen Sie bei Grenzfällen immer mindestens 100 Beispiele manuell, bevor Sie das System in den Produktivbetrieb nehmen.

Integration über die API

Ein einzelner Endpunkt gibt ein Array von Entitäten zurück:

`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/ner",
json={"text": "Pedro Silva, da Petrobras, anunciou em 5 de janeiro."},
headers={"Authorization": "Bearer brnl-xxx"}
)
# [{"text": "Pedro Silva", "type": "PER", "start": 0, "end": 11},
# {"text": "Petrobras", "type": "ORG", "start": 16, "end": 25},
# {"text": "5 de janeiro", "type": "DATE", "start": 40, "end": 52}]
`

Jetzt direkt ausprobieren

Geben Sie im Brainiall-Chat ein: "Extrahiere Personen, Unternehmen und Daten aus diesem Text: [einfügen]". Oder nutzen Sie die API unter /api/nlp/ner. Der Pro-Plan beinhaltet 10.000 Anfragen/Monat; der Business-Plan bietet Batch-Verarbeitung und benutzerdefinierte Modelle.

Kurs gefallen?

17 Pro-Kurse + 40+ KIs im Chat + Video-, Musik- und komplette Studio-Generierung freischalten.

Pro werden · €5,49/Monat

Jederzeit kündbar · Keine Verpflichtung