Converse com um PDF de 300 páginas

intermediario · 10 min · Por Ana Brainiall

Por que PDFs são um problema especial

PDFs são difíceis porque combinam 3 mundos:

1. Texto estruturado: parágrafos, listas, notas de rodapé
2. Layout visual: colunas, tabelas, diagramas, gráficos
3. Imagens: fotos, logos, capturas de tela embutidas

PDF é um formato visual-first: preserva aparência em qualquer dispositivo. Mas texto é só um subproduto — extrair o conteúdo semântico original nem sempre é trivial.

Na Brainiall, quando você envia um PDF:
- Extrai texto raw (pdfplumber ou pdfium)
- Detecta tabelas (camelot ou tabula)
- Converte páginas em imagens
- Passa por OCR (Whisper-OCR ou Mistral-OCR) em páginas sem texto extraível
- Descobre estrutura hierárquica (cabeçalhos, seções)
- Opcionalmente: resume + vectoriza para RAG

ilustração de um PDF sendo "destrinchado" em 4 camadas — texto, tabelas, imagens

Fluxo de conversação: RAG vs full context

Duas estratégias dependendo do tamanho:

PDF < 50 páginas (~100k tokens):
- Envie o texto completo no prompt do Claude Sonnet ou Gemini Pro
- Modelo "vê" tudo e responde baseado em contexto completo
- Vantagem: nenhuma informação é perdida
- Desvantagem: custoso para múltiplas perguntas (cada request reprocessa o PDF)

PDF > 50 páginas:
- Use RAG (Retrieval Augmented Generation)
- Divida PDF em chunks de ~500 tokens
- Vectorize cada chunk
- Na pergunta do usuário, busque os 5-10 chunks mais relevantes semanticamente
- Envie SÓ esses chunks no prompt
- Vantagem: barato + escalável
- Desvantagem: se o modelo precisa conectar informações de partes distantes, pode perder contexto

A Brainiall decide automaticamente qual estratégia usar baseado no tamanho do PDF.

🎧 Ouça a narração completa (vídeo demo em produção)

Casos de uso práticos

Documentos legais: conversar com contrato de 80 páginas para achar cláusulas
Papers acadêmicos: "quais são os principais argumentos contra a tese do autor?"
Relatórios financeiros: "compare o crescimento Q3 vs Q4 deste 10-K"
Manuais técnicos: "qual o procedimento para resetar o equipamento?"
Livros didáticos: tutoria privada sobre qualquer tópico
Processos jurídicos: buscar datas, partes, fatos relevantes em autos de 500+ páginas

Armadilhas comuns

Tabelas complexas: tabelas aninhadas ou mescladas podem sair confusas no texto extraído; use OCR de imagens como fallback
Fórmulas matemáticas: LaTeX em PDFs vira texto ilegível; modelos vision resolvem melhor
Documentos digitalizados antigos: PDFs que são só imagens (sem texto) exigem OCR que pode errar palavras
Idiomas exóticos: línguas de poucos recursos têm OCR pior
PDF com segurança: PDFs com proteção de cópia podem travar extração — precisa senha

Perguntas que funcionam bem vs mal

Bem:
- "Qual o argumento central do capítulo 3?"
- "Liste todas as datas mencionadas neste relatório"
- "Compare as conclusões da seção 4 e seção 7"
- "Qual foi a receita líquida em 2025?"

Mal:
- "Resuma este PDF inteiro em 2 parágrafos" (pedindo contexto completo que pode estar perdido em RAG)
- "Qual o tom emocional do autor no final?" (nuance difícil capturar em chunks)
- "O que está na imagem da página 45?" (precisa vision específico)

comparação visual de 2 colunas — "perguntas que funcionam" com checkmarks verdes

Integrando via API

`python
import httpx

# Upload do PDF primeiro
with open("contrato.pdf", "rb") as f:
r = httpx.post(
"https://api.brainiall.com/v1/files",
files={"file": f},
headers={"Authorization": "Bearer brnl-xxx"}
)
file_id = r.json()["id"]

# Depois, chat referenciando o arquivo
r = httpx.post(
"https://api.brainiall.com/v1/chat/completions",
json={
"model": "claude-sonnet-4-6",
"messages": [
{"role": "user", "content": [
{"type": "text", "text": "Liste todas as partes deste contrato"},
{"type": "file", "file_id": file_id}
]}
]
},
headers={"Authorization": "Bearer brnl-xxx"}
)
`

Teste agora mesmo

No chat Brainiall, arraste um PDF para a área de input e faça perguntas. Até 10MB por arquivo. Pro R$29 permite upload generoso; Business tem batch + retenção por 30 dias.