Namen, Unternehmen und Daten automatisch aus Texten extrahieren

iniciante · 8 min · Por Ana Brainiall

Was NER löst, das Regex nicht lösen kann

Regex ist ideal für starre Muster: Eine Postleitzahl hat immer eine feste Anzahl an Ziffern, eine E-Mail-Adresse enthält immer ein @. Aber Personennamen, Unternehmen und Datumsangaben folgen keinem festen Muster:

"Pedro Silva", "Maria da Conceição dos Santos", "Dr. Fernando" — alles Namen
"Petrobras", "Banco do Brasil", "Itaú Unibanco SA", "Loja do Seu Zé" — alles Unternehmen
"5. Januar", "05.01.2026", "letzten Freitag", "nächsten Monat" — alles Datumsangaben

NER nutzt ein Sprachmodell, das lernt, Kontext zu verstehen: "das Unternehmen Itaú" vs. "die Straße Itaú". Regex kann diese Unterscheidung nicht treffen; NER schafft das in über 95 % der Fälle.

texto de exemplo colorido com highlights em cores diferentes — nomes em azul, em

Standard- und benutzerdefinierte Entitäten

Öffentliche NER-Modelle (spaCy, HuggingFace) erkennen:

PER (Person): Pedro Silva, Dr. João
ORG (Organisation): Petrobras, Google
LOC (Ort): São Paulo, Brasilien
DATE: 5. Januar, 2026
MONEY: R$ 1.500, USD 200
TIME: 15:30 Uhr, 9 Uhr morgens
PERCENT: 20 %, 0,5

Für spezifische Fachbereiche können Sie ein benutzerdefiniertes Modell trainieren. Beispiele:

Rechtswesen: Gesetze, Aktenzeichen, Gerichte
Medizin: Medikamente, Krankheiten (ICD-10), Behandlungen
Finanzen: Aktienticker, Bankleitzahlen, Kontonummern

Brainiall bietet auf Anfrage benutzerdefinierte Modelle im Business-Plan an.

So funktioniert es im Hintergrund (in 30 Sekunden)

1. Tokenisierung: Der Text wird in Wörter und Satzzeichen aufgeteilt
2. POS-Tagging: Jedem Wort wird eine Wortart zugewiesen (Substantiv, Verb ...)
3. Kontextualisierung: Jedes Wort wird in einen Vektor mit 768+ Dimensionen umgewandelt, der die Nachbarwörter berücksichtigt
4. BIO-Klassifikation: Jedes Token wird als Begin-entity, Inside-entity oder Outside markiert. Beispiel: "Pedro" (B-PER) "Silva" (I-PER) "arbeitet" (O) "bei" (O) "Petrobras" (B-ORG)
5. Aggregation: Aufeinanderfolgende B+I-Tokens werden zu einer einzigen Entität zusammengefasst

Moderne Modelle (mBERT, XLM-R, multilingual DeBERTa) führen diese Pipeline in ~10–50 ms pro Absatz aus.

Praktische Anwendungsfälle

CRM-Anreicherung: Unternehmen und Kontakte aus E-Mails extrahieren, um die Datenbank zu aktualisieren
Nachrichtenanalyse: Erwähnungen Ihrer Marke, von Wettbewerbern und Führungskräften in den Medien überwachen
Compliance: Personennamen in Dokumenten für DSGVO-Audits identifizieren
Forschung: Autoren, Zitate und Daten aus wissenschaftlichen Publikationen in großem Maßstab extrahieren
Rechtsanalyse: Prozessparteien, zitierte Gesetze und Urteilsdaten identifizieren

Spezifische Einschränkungen

Zusammengesetzte Namen mit Präpositionen: Einige Modelle trennen Namen wie "Maria dos Santos" in zwei separate Entitäten
Familienunternehmen ohne Rechtsformzusatz: "Bäckerei vom Zé" kann als Beschreibung statt als Entität erkannt werden
Spitznamen: Mehrdeutige Begriffe können je nach Groß-/Kleinschreibung unterschiedlich interpretiert werden
Adressen: Straße + Name + Hausnummer + Postleitzahl — die Segmentierung kann fehlerhaft sein
Abkürzungen: Wird "USP" als Entität oder als normales Wort erkannt?

Tipp: Überprüfen Sie bei Grenzfällen immer mindestens 100 Beispiele manuell, bevor Sie das System in den Produktivbetrieb nehmen.

Integration über die API

Ein einzelner Endpunkt gibt ein Array von Entitäten zurück:

`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/ner",
json={"text": "Pedro Silva, da Petrobras, anunciou em 5 de janeiro."},
headers={"Authorization": "Bearer brnl-xxx"}
)
# [{"text": "Pedro Silva", "type": "PER", "start": 0, "end": 11},
# {"text": "Petrobras", "type": "ORG", "start": 16, "end": 25},
# {"text": "5 de janeiro", "type": "DATE", "start": 40, "end": 52}]
`

Jetzt direkt ausprobieren

Geben Sie im Brainiall-Chat ein: "Extrahiere Personen, Unternehmen und Daten aus diesem Text: [einfügen]". Oder nutzen Sie die API unter /api/nlp/ner. Der Pro-Plan beinhaltet 10.000 Anfragen/Monat; der Business-Plan bietet Batch-Verarbeitung und benutzerdefinierte Modelle.