Namen, Unternehmen und Daten automatisch aus Texten extrahieren
Was NER löst, das Regex nicht lösen kann
Regex ist ideal für starre Muster: Eine Postleitzahl hat immer eine feste Anzahl an Ziffern, eine E-Mail-Adresse enthält immer ein @. Aber Personennamen, Unternehmen und Datumsangaben folgen keinem festen Muster:
- "Pedro Silva", "Maria da Conceição dos Santos", "Dr. Fernando" — alles Namen
- "Petrobras", "Banco do Brasil", "Itaú Unibanco SA", "Loja do Seu Zé" — alles Unternehmen
- "5. Januar", "05.01.2026", "letzten Freitag", "nächsten Monat" — alles Datumsangaben
NER nutzt ein Sprachmodell, das lernt, Kontext zu verstehen: "das Unternehmen Itaú" vs. "die Straße Itaú". Regex kann diese Unterscheidung nicht treffen; NER schafft das in über 95 % der Fälle.

Standard- und benutzerdefinierte Entitäten
Öffentliche NER-Modelle (spaCy, HuggingFace) erkennen:
- PER (Person): Pedro Silva, Dr. João
- ORG (Organisation): Petrobras, Google
- LOC (Ort): São Paulo, Brasilien
- DATE: 5. Januar, 2026
- MONEY: R$ 1.500, USD 200
- TIME: 15:30 Uhr, 9 Uhr morgens
- PERCENT: 20 %, 0,5
Für spezifische Fachbereiche können Sie ein benutzerdefiniertes Modell trainieren. Beispiele:
- Rechtswesen: Gesetze, Aktenzeichen, Gerichte
- Medizin: Medikamente, Krankheiten (ICD-10), Behandlungen
- Finanzen: Aktienticker, Bankleitzahlen, Kontonummern
Brainiall bietet auf Anfrage benutzerdefinierte Modelle im Business-Plan an.
So funktioniert es im Hintergrund (in 30 Sekunden)
1. Tokenisierung: Der Text wird in Wörter und Satzzeichen aufgeteilt
2. POS-Tagging: Jedem Wort wird eine Wortart zugewiesen (Substantiv, Verb ...)
3. Kontextualisierung: Jedes Wort wird in einen Vektor mit 768+ Dimensionen umgewandelt, der die Nachbarwörter berücksichtigt
4. BIO-Klassifikation: Jedes Token wird als Begin-entity, Inside-entity oder Outside markiert. Beispiel: "Pedro" (B-PER) "Silva" (I-PER) "arbeitet" (O) "bei" (O) "Petrobras" (B-ORG)
5. Aggregation: Aufeinanderfolgende B+I-Tokens werden zu einer einzigen Entität zusammengefasst
Moderne Modelle (mBERT, XLM-R, multilingual DeBERTa) führen diese Pipeline in ~10–50 ms pro Absatz aus.
Praktische Anwendungsfälle
- CRM-Anreicherung: Unternehmen und Kontakte aus E-Mails extrahieren, um die Datenbank zu aktualisieren
- Nachrichtenanalyse: Erwähnungen Ihrer Marke, von Wettbewerbern und Führungskräften in den Medien überwachen
- Compliance: Personennamen in Dokumenten für DSGVO-Audits identifizieren
- Forschung: Autoren, Zitate und Daten aus wissenschaftlichen Publikationen in großem Maßstab extrahieren
- Rechtsanalyse: Prozessparteien, zitierte Gesetze und Urteilsdaten identifizieren
Spezifische Einschränkungen
- Zusammengesetzte Namen mit Präpositionen: Einige Modelle trennen Namen wie "Maria dos Santos" in zwei separate Entitäten
- Familienunternehmen ohne Rechtsformzusatz: "Bäckerei vom Zé" kann als Beschreibung statt als Entität erkannt werden
- Spitznamen: Mehrdeutige Begriffe können je nach Groß-/Kleinschreibung unterschiedlich interpretiert werden
- Adressen: Straße + Name + Hausnummer + Postleitzahl — die Segmentierung kann fehlerhaft sein
- Abkürzungen: Wird "USP" als Entität oder als normales Wort erkannt?
Tipp: Überprüfen Sie bei Grenzfällen immer mindestens 100 Beispiele manuell, bevor Sie das System in den Produktivbetrieb nehmen.
Integration über die API
Ein einzelner Endpunkt gibt ein Array von Entitäten zurück:
`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/ner",
json={"text": "Pedro Silva, da Petrobras, anunciou em 5 de janeiro."},
headers={"Authorization": "Bearer brnl-xxx"}
)
# [{"text": "Pedro Silva", "type": "PER", "start": 0, "end": 11},
# {"text": "Petrobras", "type": "ORG", "start": 16, "end": 25},
# {"text": "5 de janeiro", "type": "DATE", "start": 40, "end": 52}]`
Jetzt direkt ausprobieren
Geben Sie im Brainiall-Chat ein: "Extrahiere Personen, Unternehmen und Daten aus diesem Text: [einfügen]". Oder nutzen Sie die API unter /api/nlp/ner. Der Pro-Plan beinhaltet 10.000 Anfragen/Monat; der Business-Plan bietet Batch-Verarbeitung und benutzerdefinierte Modelle.