Ngobrol dengan PDF 300 Halaman

intermediario · 10 min · Por Ana Brainiall

Mengapa PDF Adalah Masalah Tersendiri

PDF itu rumit karena menggabungkan 3 dunia sekaligus:

1. Teks terstruktur: paragraf, daftar, catatan kaki
2. Tata letak visual: kolom, tabel, diagram, grafik
3. Gambar: foto, logo, tangkapan layar yang tertanam

PDF adalah format visual-first: menjaga tampilan di perangkat apa pun. Namun teks hanyalah produk sampingan — mengekstrak konten semantik aslinya tidak selalu mudah.

Di Brainiall, saat Anda mengunggah PDF:
- Mengekstrak teks mentah (pdfplumber atau pdfium)
- Mendeteksi tabel (camelot atau tabula)
- Mengonversi halaman menjadi gambar
- Menjalankan OCR (Whisper-OCR atau Mistral-OCR) pada halaman yang tidak bisa diekstrak teksnya
- Menemukan struktur hierarki (judul, bagian)
- Opsional: meringkas + memvektorisasi untuk RAG

ilustração de um PDF sendo "destrinchado" em 4 camadas — texto, tabelas, imagens

Alur Percakapan: RAG vs Konteks Penuh

Dua strategi tergantung ukurannya:

PDF < 50 halaman (~100k token):
- Kirim teks lengkap dalam prompt Claude Sonnet atau Gemini Pro
- Model "melihat" semuanya dan menjawab berdasarkan konteks penuh
- Keunggulan: tidak ada informasi yang hilang
- Kelemahan: mahal untuk banyak pertanyaan (setiap request memproses ulang PDF)

PDF > 50 halaman:
- Gunakan RAG (Retrieval Augmented Generation)
- Bagi PDF menjadi chunk ~500 token
- Vektorisasi setiap chunk
- Saat pengguna bertanya, cari 5-10 chunk yang paling relevan secara semantik
- Kirim HANYA chunk tersebut dalam prompt
- Keunggulan: hemat + skalabel
- Kelemahan: jika model perlu menghubungkan informasi dari bagian yang berjauhan, konteks bisa terlewat

Brainiall secara otomatis menentukan strategi mana yang digunakan berdasarkan ukuran PDF.

Kasus Penggunaan Praktis

Dokumen hukum: berdiskusi dengan kontrak 80 halaman untuk menemukan klausul tertentu
Makalah akademik: "apa argumen utama yang menentang tesis penulis?"
Laporan keuangan: "bandingkan pertumbuhan Q3 vs Q4 dalam 10-K ini"
Manual teknis: "apa prosedur untuk mereset perangkat?"
Buku teks: bimbingan belajar pribadi tentang topik apa pun
Berkas hukum: mencari tanggal, pihak, dan fakta relevan dalam dokumen 500+ halaman

Jebakan Umum yang Perlu Diwaspadai

Tabel kompleks: tabel bersarang atau yang digabung bisa kacau saat diekstrak; gunakan OCR gambar sebagai fallback
Rumus matematika: LaTeX dalam PDF bisa menjadi teks yang tidak terbaca; vision models menanganinya lebih baik
Dokumen hasil scan lama: PDF yang hanya berupa gambar (tanpa teks) memerlukan OCR yang bisa saja salah membaca kata
Bahasa langka: bahasa dengan sumber daya terbatas memiliki akurasi OCR yang lebih rendah
PDF berproteksi: PDF dengan proteksi salinan bisa menghambat ekstraksi — diperlukan kata sandi

Pertanyaan yang Bekerja Baik vs Kurang Baik

Baik:
- "Apa argumen utama dari bab 3?"
- "Daftarkan semua tanggal yang disebutkan dalam laporan ini"
- "Bandingkan kesimpulan dari bagian 4 dan bagian 7"
- "Berapa pendapatan bersih pada tahun 2025?"

Kurang Baik:
- "Ringkas seluruh PDF ini dalam 2 paragraf" (membutuhkan konteks penuh yang mungkin hilang dalam RAG)
- "Bagaimana nada emosional penulis di bagian akhir?" (nuansa yang sulit ditangkap dalam chunk)
- "Apa yang ada di gambar halaman 45?" (memerlukan vision yang spesifik)

comparação visual de 2 colunas — "perguntas que funcionam" com checkmarks verdes

Integrasi via API

`python
import httpx

# Upload PDF terlebih dahulu
with open("kontrak.pdf", "rb") as f:
r = httpx.post(
"https://api.brainiall.com/v1/files",
files={"file": f},
headers={"Authorization": "Bearer brnl-xxx"}
)
file_id = r.json()["id"]

# Kemudian, chat dengan mereferensikan file
r = httpx.post(
"https://api.brainiall.com/v1/chat/completions",
json={
"model": "claude-sonnet-4-6",
"messages": [
{"role": "user", "content": [
{"type": "text", "text": "Daftarkan semua pihak dalam kontrak ini"},
{"type": "file", "file_id": file_id}
]}
]
},
headers={"Authorization": "Bearer brnl-xxx"}
)
`

Coba Sekarang Juga

Di chat Brainiall, seret PDF ke area input dan mulai ajukan pertanyaan. Hingga 10MB per file. Paket Pro seharga Rp 49rb memungkinkan unggahan yang lebih besar; paket Business mendukung batch + penyimpanan selama 30 hari.