Erkennen Sie Toxizität in Kommentaren mit KI

intermediario · 10 min · Por Ana Brainiall

Die Apokalypse Perspective: was geschah

Im Oktober 2024 kündigte Google an, dass die Perspective API — der weltweit meistgenutzte kostenlose Toxizitätserkennungsdienst — im Dezember 2026 eingestellt wird. Plattformen, die davon abhängig waren (Reddit, New York Times, The Guardian, Tausende von Foren), haben 2 Jahre Zeit für die Migration.

Das Problem: Perspective war kostenlos. Kommerzielle Alternativen wie Azure Content Safety und AWS Comprehend berechnen ab US$ 1 pro 1.000 Analysen. Für ein großes Forum mit 100.000 Kommentaren/Tag werden daraus allein für die Moderation 3.000 $/Monat.

Brainiall bietet Moderation mit Detoxify + Unitary Modellen an, die lokal in ONNX (CPU) laufen und weniger als R$ 0,001 pro Analyse kosten — 100-mal günstiger.

timeline mostrando Perspective API (2017-2026), com ícone de "desligamento" em d

Die 7 Kategorien, die wichtig sind

Detoxify klassifiziert Text in 7 Dimensionen mit einem Score von 0 bis 1:

1. Toxicity: allgemeine Beleidigung, Aggressivität
2. Severe toxicity: Bedrohung, extremer Hass
3. Obscene: Schimpfwörter und vulgäre Sprache
4. Threat: Androhung physischer Gewalt
5. Insult: direkter persönlicher Angriff
6. Identity hate: gruppenbasierte Diskriminierung (Rasse, Geschlecht, Religion)
7. Sexual explicit: sexuell explizite Inhalte

Ihre Policy legt die Thresholds fest. Gängiges Beispiel: blockieren, wenn severe_toxicity > 0,5 ODER identity_hate > 0,6 ODER threat > 0,3. Einzelne Schimpfwörter (obscene > 0,8) werden in der Regel mit einer Warnung durchgelassen, nicht blockiert.

dashboard visual com 7 medidores mostrando um comentário de exemplo sendo analis

Das Problem mit PT-BR

Detoxify wurde auf Englisch trainiert. Es funktioniert zu 95%+ bei englischen Kommentaren. Bei brasilianischem Portugiesisch sinkt die Genauigkeit auf 75-85% — die regionalen Ausdrücke und spezifischen Slangbegriffe (viele davon nicht beleidigend) verwirren das Modell.

Bei Brainiall verwenden wir eine zusätzliche Schicht: einen hybriden Klassifikator, der Folgendes kombiniert:
- Detoxify multilingual (70% der Entscheidung)
- Liste spezifischer PT-BR-Wörter (20%)
- LLM small (Gemma 3 oder ähnlich) für Grenzfälle (10%)

Dies erhöht die Genauigkeit auf 92%+ in PT-BR bei einer Latenz von < 80ms.

Wenn die KI gefährlich irrt

Sarkasmus: "Ich liebte es, wie du mein Leben ruiniert hast, danke!" — positiver Score, aber der Text ist feindselig
Legitime Satire: humoristische politische Kritik kann als Angriff markiert werden
Medizinischer Kontext: "Ich werde den Patienten durch so viel Arbeit umbringen" (erschöpfter Gesundheitsarbeiter) — falsches positives Flag
Zitate: Ein Artikel, der einen rassistischen Beitrag zitiert, um ihn zu kritisieren, wird wie der rassistische Beitrag selbst analysiert
Code-switching: Wer Englisch + Portugiesisch + Emojis mischt, verwirrt das Modell

Praktische Lösung: Kombinieren Sie den automatischen Score mit Soft-Moderation (Bestätigung vor der Veröffentlichung anfordern) anstelle von Hard-Block bei Grenzfällen.

Integrando in Ihre Plattform

Empfohlener Ablauf:

1. Benutzer gibt Kommentar ein → fetch POST /api/toxicity mit { text }
2. API gibt zurück { toxicity, severe, threat, insult, identity_hate, obscene, sexual }
3. Ihr Code entscheidet: blockieren, warnen oder genehmigen
4. Bei Warnung wird vor der Veröffentlichung angezeigt: „Überprüfen – könnte einige Benutzer beleidigen"
5. Bei Blockierungen: Log + Benachrichtigung der menschlichen Moderation

Führen Sie keine 100% automatische Moderation durch. Halten Sie immer eine menschliche Warteschlange für Grenzfälle bereit.

Teste jetzt gleich

Im Brainiall-Chat fragen Sie "analysiere die Toxizität dieses Kommentars: [hier einfügen]". Oder über die API unter der Route /api/nlp/toxicity. Der Pro-Plan für €5,49 umfasst 10.000 Analysen/Monat; Business hat Priority-Warteschlange + Batch von Millionen.