Detecta toxicidad en comentarios con IA

intermediario · 10 min · Por Ana Brainiall

El apocalipsis Perspective: qué pasó

En octubre de 2024, Google anunció que el Perspective API — el servicio gratuito de detección de toxicidad más usado en el mundo — sería descontinuado en diciembre de 2026. Las plataformas que dependían de él (Reddit, New York Times, The Guardian, miles de foros) tienen 2 años para migrar.

El problema: Perspective era gratuito. Las alternativas comerciales como Azure Content Safety y AWS Comprehend cobran desde US$ 1 por 1.000 análisis. Para un foro grande con 100k comentarios/día, eso se convierte en $3k/mes solo en moderación.

Brainiall ofrece moderación con modelos Detoxify + Unitary ejecutándose en ONNX local (CPU), con un costo menor a R$ 0,001 por análisis — 100x más barato.

timeline mostrando Perspective API (2017-2026), com ícone de "desligamento" em d

Las 7 categorías que importan

Detoxify clasifica el texto en 7 dimensiones con un score de 0 a 1:

1. Toxicity: insulto general, agresividad
2. Severe toxicity: amenaza, odio extremo
3. Obscene: groserías y lenguaje vulgar
4. Threat: amenaza de violencia física
5. Insult: ataque personal directo
6. Identity hate: discriminación basada en grupo (raza, género, religión)
7. Sexual explicit: contenido sexualmente explícito

Tu política define los thresholds. Ejemplo común: bloquear si severe_toxicity > 0.5 O identity_hate > 0.6 O threat > 0.3. Las groserías aisladas (obscene > 0.8) generalmente pasan con advertencia, no con bloqueo.

dashboard visual com 7 medidores mostrando um comentário de exemplo sendo analis

El problema del español

Detoxify fue entrenado en inglés. Funciona al 95%+ en comentarios en inglés. En español, baja al 75-85% — los regionalismos y expresiones locales (muchas de ellas inofensivas) confunden al modelo.

En Brainiall usamos una capa adicional: un clasificador híbrido que combina:
- Detoxify multilingual (70% de la decisión)
- Lista de palabras específicas en español (20%)
- LLM small (Gemma 3 o similar) para casos borderline (10%)

Esto eleva la precisión al 92%+ en español, manteniendo una latencia < 80ms.

Cuando la IA falla peligrosamente

Sarcasmo: "¡Me encantó cómo arruinaste mi vida, gracias!" — score positivo, pero el texto es hostil
Sátira legítima: las críticas políticas humorísticas pueden marcarse como ataque
Contexto médico: "voy a matar al paciente de tanto trabajar" (trabajador de salud agotado) — falso positivo
Citas: un artículo que cita un post racista para criticarlo es analizado como el racista
Code-switching: quien mezcla inglés + español + emojis confunde al modelo

Solución práctica: combina el score automático con soft-moderation (pedir confirmación antes de publicar) en lugar de hard-block para los casos borderline.

Integrándolo en tu plataforma

Flujo recomendado:

1. El usuario escribe un comentario → fetch POST /api/toxicity con { text }
2. La API devuelve { toxicity, severe, threat, insult, identity_hate, obscene, sexual }
3. Tu código decide: bloquear, advertir o aprobar
4. Si advierte, muestra "Revisa — puede ofender a algunos usuarios" antes de publicar
5. Para bloqueos, log + notifica a la moderación humana

No hagas moderación 100% automática. Mantén siempre una cola humana para los casos borderline.

Pruébalo ahora mismo

En el chat de Brainiall, escribe "analiza la toxicidad de este comentario: [pega aquí]". O vía API en la ruta /api/nlp/toxicity. El plan Pro US$5.99 incluye 10.000 análisis/mes; el Business tiene cola priority + batch de millones.