Ana Brainiall

Ekstrak teks dari gambar dengan Vision AI

iniciante · 8 min · Por Ana Brainiall

OCR berubah total di 2024-2026

OCR tradisional (Tesseract, sejak 1985) bekerja dalam 2 langkah:

1. Deteksi: menemukan area gambar yang mengandung teks
2. Pengenalan: mengklasifikasikan setiap huruf satu per satu

Bekerja baik pada dokumen cetak yang bersih, dengan font umum, dalam bahasa Inggris. Dalam skenario lain (tulisan tangan, papan melengkung, teks dalam foto, bahasa eksotis, tata letak kompleks) akurasinya anjlok ke 60-70%.

Vision-language model modern (Claude Sonnet, GPT-5, Gemini 3 Pro) merevolusi OCR. Alih-alih mengklasifikasikan huruf per huruf, mereka menginterpretasikan gambar secara keseluruhan — mengenali konteks, mengoreksi kesalahan berdasarkan makna, dan menangani tata letak apa pun.

comparação lado a lado — à esquerda uma receita manuscrita com Tesseract gerando

Kapan menggunakan setiap alat

Tesseract (open source, CPU lokal):
- Dokumen cetak terstandarisasi (invoice, PDF hasil scan)
- Volume tinggi (10k+ halaman/hari) di mana latensi penting
- Kasus di mana privasi mencegah pengiriman ke cloud
- Biaya: hampir nol

Vision-LLM (via API):
- Teks tulisan tangan
- Papan nama, poster, foto jalanan
- Teks pada objek 3D (kaleng, label melengkung)
- Dokumen dengan tata letak kompleks (tabel, banyak kolom, catatan kaki)
- Bahasa dengan sumber daya terbatas (Arab, Mandarin, Ibrani)
- Biaya: Rp 0,005 hingga Rp 0,05 per gambar

Whisper-OCR (model khusus):
- Dokumen dengan banyak tabel
- Persamaan matematika
- Tata letak ilmiah (paper)

Cara membuat request yang baik

Agar vision-LLM bekerja lebih optimal, susun prompt dengan baik:

Kurang baik:
> "OCR this"

Baik:
> "Ekstrak semua teks yang terlihat dalam gambar ini, pertahankan struktur hierarki (judul, subjudul, paragraf). Jika ada tabel, format dalam markdown. Jika teks tidak terbaca di suatu area, tandai [tidak terbaca]. Jika ada teks dalam beberapa bahasa, pisahkan."

Perbedaan kualitasnya sangat dramatis. LLM menggunakan "pemahaman" strukturnya untuk mengorganisasi output.

Kasus penggunaan praktis

Jebakan teknis

Integrasi via API

`python
import httpx, base64

with open("foto.jpg", "rb") as f:
img_b64 = base64.b64encode(f.read()).decode()

r = httpx.post(
"https://api.brainiall.com/v1/chat/completions",
json={
"model": "claude-sonnet-4-6",
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Ekstrak teks dari gambar ini dalam markdown, pertahankan strukturnya."},
{"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{img_b64}"}}
]
}]
},
headers={"Authorization": "Bearer brnl-xxx"}
)
print(r.json()["choices"][0]["message"]["content"])
`

Coba sekarang juga

Di chat Brainiall, klik ikon lampiran file, kirim gambar yang mengandung teks, dan ketik "ekstrak teks dari gambar ini". Hasilnya dalam 2-5 detik. Paket Pro Rp29 sudah termasuk 100 analisis/bulan; Business membuka fitur batch.

Suka kursusnya?

Buka 17 kursus Pro + 40+ AI di chat + pembuatan video, musik, dan Studio lengkap.

Jadi Pro · Rp 49rb/bulan

Batalkan kapan saja · Tanpa komitmen