Ngobrol dengan PDF 300 Halaman
Mengapa PDF Adalah Masalah Tersendiri
PDF itu rumit karena menggabungkan 3 dunia sekaligus:
1. Teks terstruktur: paragraf, daftar, catatan kaki
2. Tata letak visual: kolom, tabel, diagram, grafik
3. Gambar: foto, logo, tangkapan layar yang tertanam
PDF adalah format visual-first: menjaga tampilan di perangkat apa pun. Namun teks hanyalah produk sampingan — mengekstrak konten semantik aslinya tidak selalu mudah.
Di Brainiall, saat Anda mengunggah PDF:
- Mengekstrak teks mentah (pdfplumber atau pdfium)
- Mendeteksi tabel (camelot atau tabula)
- Mengonversi halaman menjadi gambar
- Menjalankan OCR (Whisper-OCR atau Mistral-OCR) pada halaman yang tidak bisa diekstrak teksnya
- Menemukan struktur hierarki (judul, bagian)
- Opsional: meringkas + memvektorisasi untuk RAG

Alur Percakapan: RAG vs Konteks Penuh
Dua strategi tergantung ukurannya:
PDF < 50 halaman (~100k token):
- Kirim teks lengkap dalam prompt Claude Sonnet atau Gemini Pro
- Model "melihat" semuanya dan menjawab berdasarkan konteks penuh
- Keunggulan: tidak ada informasi yang hilang
- Kelemahan: mahal untuk banyak pertanyaan (setiap request memproses ulang PDF)
PDF > 50 halaman:
- Gunakan RAG (Retrieval Augmented Generation)
- Bagi PDF menjadi chunk ~500 token
- Vektorisasi setiap chunk
- Saat pengguna bertanya, cari 5-10 chunk yang paling relevan secara semantik
- Kirim HANYA chunk tersebut dalam prompt
- Keunggulan: hemat + skalabel
- Kelemahan: jika model perlu menghubungkan informasi dari bagian yang berjauhan, konteks bisa terlewat
Brainiall secara otomatis menentukan strategi mana yang digunakan berdasarkan ukuran PDF.
Kasus Penggunaan Praktis
- Dokumen hukum: berdiskusi dengan kontrak 80 halaman untuk menemukan klausul tertentu
- Makalah akademik: "apa argumen utama yang menentang tesis penulis?"
- Laporan keuangan: "bandingkan pertumbuhan Q3 vs Q4 dalam 10-K ini"
- Manual teknis: "apa prosedur untuk mereset perangkat?"
- Buku teks: bimbingan belajar pribadi tentang topik apa pun
- Berkas hukum: mencari tanggal, pihak, dan fakta relevan dalam dokumen 500+ halaman
Jebakan Umum yang Perlu Diwaspadai
- Tabel kompleks: tabel bersarang atau yang digabung bisa kacau saat diekstrak; gunakan OCR gambar sebagai fallback
- Rumus matematika: LaTeX dalam PDF bisa menjadi teks yang tidak terbaca; vision models menanganinya lebih baik
- Dokumen hasil scan lama: PDF yang hanya berupa gambar (tanpa teks) memerlukan OCR yang bisa saja salah membaca kata
- Bahasa langka: bahasa dengan sumber daya terbatas memiliki akurasi OCR yang lebih rendah
- PDF berproteksi: PDF dengan proteksi salinan bisa menghambat ekstraksi — diperlukan kata sandi
Pertanyaan yang Bekerja Baik vs Kurang Baik
Baik:
- "Apa argumen utama dari bab 3?"
- "Daftarkan semua tanggal yang disebutkan dalam laporan ini"
- "Bandingkan kesimpulan dari bagian 4 dan bagian 7"
- "Berapa pendapatan bersih pada tahun 2025?"
Kurang Baik:
- "Ringkas seluruh PDF ini dalam 2 paragraf" (membutuhkan konteks penuh yang mungkin hilang dalam RAG)
- "Bagaimana nada emosional penulis di bagian akhir?" (nuansa yang sulit ditangkap dalam chunk)
- "Apa yang ada di gambar halaman 45?" (memerlukan vision yang spesifik)

Integrasi via API
`python
import httpx
# Upload PDF terlebih dahulu
with open("kontrak.pdf", "rb") as f:
r = httpx.post(
"https://api.brainiall.com/v1/files",
files={"file": f},
headers={"Authorization": "Bearer brnl-xxx"}
)
file_id = r.json()["id"]
# Kemudian, chat dengan mereferensikan file
r = httpx.post(
"https://api.brainiall.com/v1/chat/completions",
json={
"model": "claude-sonnet-4-6",
"messages": [
{"role": "user", "content": [
{"type": "text", "text": "Daftarkan semua pihak dalam kontrak ini"},
{"type": "file", "file_id": file_id}
]}
]
},
headers={"Authorization": "Bearer brnl-xxx"}
)`
Coba Sekarang Juga
Di chat Brainiall, seret PDF ke area input dan mulai ajukan pertanyaan. Hingga 10MB per file. Paket Pro seharga Rp 49rb memungkinkan unggahan yang lebih besar; paket Business mendukung batch + penyimpanan selama 30 hari.