Ana Brainiall

Ekstrak nama, perusahaan, dan tanggal dari teks secara otomatis

iniciante · 8 min · Por Ana Brainiall

Apa yang NER selesaikan yang regex tidak bisa

Regex sangat bagus untuk pola yang kaku: kode pos selalu memiliki format tertentu, email selalu mengandung @. Tapi nama orang, perusahaan, dan tanggal tidak memiliki pola tetap:

NER menggunakan model bahasa yang belajar untuk memahami konteks: "perusahaan Itaú" vs "jalan Itaú". Regex tidak bisa membuat perbedaan ini; NER bisa melakukannya 95%+ dari waktu.

texto de exemplo colorido com highlights em cores diferentes — nomes em azul, em

Entitas standar dan custom

Model NER publik (spaCy, HuggingFace) mendeteksi:

Untuk domain tertentu, Anda bisa melatih model custom. Contohnya:

Brainiall menawarkan model custom sesuai permintaan pada paket Business.

Cara kerjanya di balik layar (dalam 30 detik)

1. Tokenisasi: teks dipecah menjadi kata-kata dan tanda baca
2. POS tagging: setiap kata mendapat kelas gramatikal (kata benda, kata kerja...)
3. Kontekstualisasi: setiap kata diubah menjadi vektor 768+ dimensi dengan mempertimbangkan kata-kata di sekitarnya
4. Klasifikasi BIO: setiap token ditandai sebagai Begin-entity, Inside-entity, atau Outside. Contoh: "Pedro" (B-PER) "Silva" (I-PER) "trabalha" (O) "na" (O) "Petrobras" (B-ORG)
5. Agregasi: token B+I yang berurutan menjadi satu entitas tunggal

Model modern (mBERT, XLM-R, multilingual DeBERTa) menjalankan pipeline ini dalam ~10-50ms untuk satu paragraf.

Kasus penggunaan praktis

Keterbatasan spesifik untuk Bahasa Indonesia

Tips: untuk kasus yang meragukan, selalu tinjau 100 contoh secara manual sebelum digunakan di produksi.

Integrasi via API

Endpoint tunggal mengembalikan array entitas:

`python
import httpx
r = httpx.post(
"https://api.brainiall.com/api/nlp/ner",
json={"text": "Pedro Silva, da Petrobras, anunciou em 5 de janeiro."},
headers={"Authorization": "Bearer brnl-xxx"}
)
# [{"text": "Pedro Silva", "type": "PER", "start": 0, "end": 11},
# {"text": "Petrobras", "type": "ORG", "start": 16, "end": 25},
# {"text": "5 de janeiro", "type": "DATE", "start": 40, "end": 52}]
`

Coba sekarang juga

Minta "ekstrak orang, perusahaan, dan tanggal dari teks ini: [tempel]" di chat Brainiall. Atau via API /api/nlp/ner. Paket Pro seharga Rp 49rb mencakup 10k requests/bulan; paket Business menawarkan batch + model custom.

Suka kursusnya?

Buka 17 kursus Pro + 40+ AI di chat + pembuatan video, musik, dan Studio lengkap.

Jadi Pro · Rp 49rb/bulan

Batalkan kapan saja · Tanpa komitmen