Détectez la toxicité dans les commentaires avec l'IA

intermediario · 10 min · Por Ana Brainiall

L'apocalypse Perspective : ce qui s'est passé

En octobre 2024, Google a annoncé que le Perspective API — le service gratuit de détection de toxicité le plus utilisé au monde — serait abandonné en décembre 2026. Les plateformes qui en dépendaient (Reddit, New York Times, The Guardian, des milliers de forums) ont 2 ans pour migrer.

Le problème : Perspective était gratuit. Les alternatives commerciales comme Azure Content Safety et AWS Comprehend facturent à partir de 1 $ pour 1 000 analyses. Pour un grand forum avec 100 000 commentaires par jour, cela représente 3 000 $/mois rien que pour la modération.

Brainiall propose une modération avec les modèles Detoxify + Unitary fonctionnant en ONNX local (CPU), pour moins de 0,001 € par analyse — 100x moins cher.

timeline mostrando Perspective API (2017-2026), com ícone de "desligamento" em d

Les 7 catégories qui comptent

Detoxify classe le texte selon 7 dimensions avec un score de 0 à 1 :

1. Toxicity : insulte générale, agressivité
2. Severe toxicity : menace, haine extrême
3. Obscene : grossièretés et langage vulgaire
4. Threat : menace de violence physique
5. Insult : attaque personnelle directe
6. Identity hate : discrimination basée sur un groupe (race, genre, religion)
7. Sexual explicit : contenu sexuellement explicite

Votre politique définit les seuils. Exemple courant : bloquer si severe_toxicity > 0,5 OU identity_hate > 0,6 OU threat > 0,3. Les grossièretés isolées (obscene > 0,8) passent généralement avec un avertissement, sans blocage.

dashboard visual com 7 medidores mostrando um comentário de exemplo sendo analis

Le défi des langues locales

Detoxify a été entraîné en anglais. Il fonctionne à plus de 95 % sur les commentaires en anglais. En français et dans d'autres langues, ce taux peut descendre à 75-85 % — les régionalismes et les expressions familières spécifiques (souvent non offensantes) perturbent le modèle.

Chez Brainiall, nous utilisons une couche supplémentaire : un classificateur hybride qui combine :
- Detoxify multilingue (70 % de la décision)
- Une liste de mots spécifiques à la langue cible (20 %)
- Un LLM compact (Gemma 3 ou similaire) pour les cas limites (10 %)

Cela élève la précision à plus de 92 %, tout en maintenant une latence inférieure à 80 ms.

Quand l'IA se trompe dangereusement

Sarcasme : "J'ai adoré la façon dont tu as ruiné ma vie, merci !" — score positif, mais le texte est hostile
Satire légitime : les critiques politiques humoristiques peuvent être signalées comme des attaques
Contexte médical : "je vais tuer ce patient à force de travailler" (soignant épuisé) — faux positif
Citations : un article citant un post raciste pour le critiquer est analysé comme s'il était lui-même raciste
Code-switching : mélanger plusieurs langues et des emojis perturbe le modèle

Solution pratique : combinez le score automatique avec une modération douce (demander confirmation avant publication) plutôt qu'un blocage immédiat pour les cas limites.

Intégration dans votre plateforme

Flux recommandé :

1. L'utilisateur saisit un commentaire → requête POST /api/toxicity avec { text }
2. L'API retourne { toxicity, severe, threat, insult, identity_hate, obscene, sexual }
3. Votre code décide : bloquer, avertir ou approuver
4. En cas d'avertissement, afficher "Vérifiez — ce contenu pourrait offenser certains utilisateurs" avant publication
5. Pour les blocages, journalisez et notifiez la modération humaine

N'automatisez pas la modération à 100 %. Maintenez toujours une file d'attente humaine pour les cas limites.

Testez dès maintenant

Dans le chat Brainiall, demandez "analysez la toxicité de ce commentaire : [collez ici]". Ou via API sur la route /api/nlp/toxicity. Le plan Pro à 29 € inclut 10 000 analyses par mois ; le plan Business offre une file prioritaire et le traitement par lots de millions de requêtes.