Deteksi toksisitas dalam komentar dengan AI

intermediario · 10 min · Por Ana Brainiall

Kiamat Perspective: apa yang terjadi

Pada Oktober 2024, Google mengumumkan bahwa Perspective API — layanan deteksi toksisitas gratis yang paling banyak digunakan di dunia — akan dihentikan pada Desember 2026. Platform yang bergantung padanya (Reddit, New York Times, The Guardian, ribuan forum) memiliki waktu 2 tahun untuk bermigrasi.

Masalahnya: Perspective itu gratis. Alternatif komersial seperti Azure Content Safety dan AWS Comprehend mengenakan biaya mulai dari US$ 1 per 1.000 analisis. Untuk forum besar dengan 100 ribu komentar per hari, itu bisa menjadi $3 ribu per bulan hanya untuk moderasi.

Brainiall menawarkan moderasi dengan model Detoxify + Unitary yang berjalan di ONNX lokal (CPU), dengan biaya kurang dari Rp 0,001 per analisis — 100x lebih murah.

timeline mostrando Perspective API (2017-2026), com ícone de "desligamento" em d

7 kategori yang penting

Detoxify mengklasifikasikan teks dalam 7 dimensi dengan skor 0 hingga 1:

1. Toxicity: penghinaan umum, agresivitas
2. Severe toxicity: ancaman, kebencian ekstrem
3. Obscene: kata-kata kotor dan bahasa vulgar
4. Threat: ancaman kekerasan fisik
5. Insult: serangan personal langsung
6. Identity hate: diskriminasi berbasis kelompok (ras, gender, agama)
7. Sexual explicit: konten yang bersifat seksual eksplisit

Kebijakan Anda menentukan threshold-nya. Contoh umum: blokir jika severe_toxicity > 0,5 ATAU identity_hate > 0,6 ATAU threat > 0,3. Kata-kata kotor yang berdiri sendiri (obscene > 0,8) biasanya lolos dengan peringatan, bukan pemblokiran.

dashboard visual com 7 medidores mostrando um comentário de exemplo sendo analis

Tantangan bahasa Indonesia

Detoxify dilatih dalam bahasa Inggris. Performanya mencapai 95%+ untuk komentar berbahasa Inggris. Dalam bahasa Indonesia, akurasinya turun ke 75-85% — regionalisme dan slang spesifik (banyak yang tidak ofensif) membingungkan model.

Di Brainiall, kami menggunakan lapisan tambahan: sebuah klasifier hibrida yang menggabungkan:
- Detoxify multilingual (70% dari keputusan)
- Daftar kata spesifik bahasa Indonesia (20%)
- LLM small (Gemma 3 atau sejenisnya) untuk kasus borderline (10%)

Ini meningkatkan akurasi hingga 92%+ dalam bahasa Indonesia, dengan tetap menjaga latensi < 80ms.

Ketika AI membuat kesalahan berbahaya

Sarkasme: "Senang sekali kamu sudah merusak hidupku, terima kasih!" — skor positif, padahal teksnya bersifat bermusuhan
Satire yang sah: kritik politik yang humoris bisa ditandai sebagai serangan
Konteks medis: "saya akan membunuh pasien ini karena terlalu banyak kerja" (tenaga kesehatan yang kelelahan) — false positive
Kutipan: sebuah artikel yang mengutip postingan rasis untuk mengkritiknya dianalisis seolah-olah itu adalah konten rasis itu sendiri
Code-switching: pengguna yang mencampur bahasa Inggris + Indonesia + emoji membingungkan model

Solusi praktis: gabungkan skor otomatis dengan soft-moderation (meminta konfirmasi sebelum publikasi) alih-alih hard-block untuk kasus borderline.

Integrasikan ke platform Anda

Alur yang direkomendasikan:

1. Pengguna mengetik komentar → fetch POST /api/toxicity dengan { text }
2. API mengembalikan { toxicity, severe, threat, insult, identity_hate, obscene, sexual }
3. Kode Anda memutuskan: blokir, beri peringatan, atau setujui
4. Jika peringatan, tampilkan "Tinjau kembali — mungkin menyinggung sebagian pengguna" sebelum publikasi
5. Untuk pemblokiran, catat log + notifikasi ke tim moderasi manusia

Jangan lakukan moderasi 100% otomatis. Selalu pertahankan antrean manusia untuk kasus-kasus borderline.

Coba sekarang juga

Di chat Brainiall, ketik "analisis toksisitas komentar ini: [tempel di sini]". Atau melalui API di rute /api/nlp/toxicity. Paket Pro Rp29 sudah mencakup 10.000 analisis per bulan; paket Business memiliki antrean prioritas + batch jutaan analisis.