Converse com um PDF de 300 páginas
Por que PDFs são um problema especial
PDFs são difíceis porque combinam 3 mundos:
1. Texto estruturado: parágrafos, listas, notas de rodapé
2. Layout visual: colunas, tabelas, diagramas, gráficos
3. Imagens: fotos, logos, capturas de tela embutidas
PDF é um formato visual-first: preserva aparência em qualquer dispositivo. Mas texto é só um subproduto — extrair o conteúdo semântico original nem sempre é trivial.
Na Brainiall, quando você envia um PDF:
- Extrai texto raw (pdfplumber ou pdfium)
- Detecta tabelas (camelot ou tabula)
- Converte páginas em imagens
- Passa por OCR (Whisper-OCR ou Mistral-OCR) em páginas sem texto extraível
- Descobre estrutura hierárquica (cabeçalhos, seções)
- Opcionalmente: resume + vectoriza para RAG

Fluxo de conversação: RAG vs full context
Duas estratégias dependendo do tamanho:
PDF < 50 páginas (~100k tokens):
- Envie o texto completo no prompt do Claude Sonnet ou Gemini Pro
- Modelo "vê" tudo e responde baseado em contexto completo
- Vantagem: nenhuma informação é perdida
- Desvantagem: custoso para múltiplas perguntas (cada request reprocessa o PDF)
PDF > 50 páginas:
- Use RAG (Retrieval Augmented Generation)
- Divida PDF em chunks de ~500 tokens
- Vectorize cada chunk
- Na pergunta do usuário, busque os 5-10 chunks mais relevantes semanticamente
- Envie SÓ esses chunks no prompt
- Vantagem: barato + escalável
- Desvantagem: se o modelo precisa conectar informações de partes distantes, pode perder contexto
A Brainiall decide automaticamente qual estratégia usar baseado no tamanho do PDF.
🎧 Ouça a narração completa (vídeo demo em produção)
Casos de uso práticos
- Documentos legais: conversar com contrato de 80 páginas para achar cláusulas
- Papers acadêmicos: "quais são os principais argumentos contra a tese do autor?"
- Relatórios financeiros: "compare o crescimento Q3 vs Q4 deste 10-K"
- Manuais técnicos: "qual o procedimento para resetar o equipamento?"
- Livros didáticos: tutoria privada sobre qualquer tópico
- Processos jurídicos: buscar datas, partes, fatos relevantes em autos de 500+ páginas
Armadilhas comuns
- Tabelas complexas: tabelas aninhadas ou mescladas podem sair confusas no texto extraído; use OCR de imagens como fallback
- Fórmulas matemáticas: LaTeX em PDFs vira texto ilegível; modelos vision resolvem melhor
- Documentos digitalizados antigos: PDFs que são só imagens (sem texto) exigem OCR que pode errar palavras
- Idiomas exóticos: línguas de poucos recursos têm OCR pior
- PDF com segurança: PDFs com proteção de cópia podem travar extração — precisa senha
Perguntas que funcionam bem vs mal
Bem:
- "Qual o argumento central do capítulo 3?"
- "Liste todas as datas mencionadas neste relatório"
- "Compare as conclusões da seção 4 e seção 7"
- "Qual foi a receita líquida em 2025?"
Mal:
- "Resuma este PDF inteiro em 2 parágrafos" (pedindo contexto completo que pode estar perdido em RAG)
- "Qual o tom emocional do autor no final?" (nuance difícil capturar em chunks)
- "O que está na imagem da página 45?" (precisa vision específico)

Integrando via API
`python
import httpx
# Upload do PDF primeiro
with open("contrato.pdf", "rb") as f:
r = httpx.post(
"https://api.brainiall.com/v1/files",
files={"file": f},
headers={"Authorization": "Bearer brnl-xxx"}
)
file_id = r.json()["id"]
# Depois, chat referenciando o arquivo
r = httpx.post(
"https://api.brainiall.com/v1/chat/completions",
json={
"model": "claude-sonnet-4-6",
"messages": [
{"role": "user", "content": [
{"type": "text", "text": "Liste todas as partes deste contrato"},
{"type": "file", "file_id": file_id}
]}
]
},
headers={"Authorization": "Bearer brnl-xxx"}
)`
Teste agora mesmo
No chat Brainiall, arraste um PDF para a área de input e faça perguntas. Até 10MB por arquivo. Pro R$29 permite upload generoso; Business tem batch + retenção por 30 dias.