Discutez avec un PDF de 300 pages

intermediario · 10 min · Por Ana Brainiall

Pourquoi les PDFs posent un défi particulier

Les PDFs sont complexes car ils combinent 3 univers :

1. Texte structuré : paragraphes, listes, notes de bas de page
2. Mise en page visuelle : colonnes, tableaux, diagrammes, graphiques
3. Images : photos, logos, captures d'écran intégrées

Le PDF est un format visual-first : il préserve l'apparence sur n'importe quel appareil. Mais le texte n'est qu'un sous-produit — extraire le contenu sémantique original n'est pas toujours trivial.

Sur Brainiall, lorsque vous envoyez un PDF :
- Extraction du texte brut (pdfplumber ou pdfium)
- Détection des tableaux (camelot ou tabula)
- Conversion des pages en images
- Passage par OCR (Whisper-OCR ou Mistral-OCR) pour les pages sans texte extractible
- Identification de la structure hiérarchique (titres, sections)
- En option : résumé + vectorisation pour RAG

ilustração de um PDF sendo "destrinchado" em 4 camadas — texto, tabelas, imagens

Flux de conversation : RAG vs contexte complet

Deux stratégies selon la taille du document :

PDF < 50 pages (~100k tokens) :
- Envoyez le texte complet dans le prompt de Claude Sonnet ou Gemini Pro
- Le modèle « voit » tout et répond en s'appuyant sur le contexte intégral
- Avantage : aucune information n'est perdue
- Inconvénient : coûteux pour plusieurs questions (chaque requête retraite le PDF)

PDF > 50 pages :
- Utilisez le RAG (Retrieval Augmented Generation)
- Découpez le PDF en chunks d'environ 500 tokens
- Vectorisez chaque chunk
- À chaque question, récupérez les 5 à 10 chunks les plus pertinents sémantiquement
- N'envoyez QUE ces chunks dans le prompt
- Avantage : économique et scalable
- Inconvénient : si le modèle doit relier des informations éloignées, il peut perdre du contexte

Brainiall choisit automatiquement la stratégie adaptée en fonction de la taille du PDF.

Cas d'usage concrets

Documents juridiques : parcourir un contrat de 80 pages pour retrouver des clauses spécifiques
Articles académiques : « quels sont les principaux arguments contre la thèse de l'auteur ? »
Rapports financiers : « comparez la croissance du T3 et du T4 dans ce 10-K »
Manuels techniques : « quelle est la procédure pour réinitialiser l'équipement ? »
Manuels scolaires : tutorat personnalisé sur n'importe quel sujet
Dossiers juridiques : rechercher des dates, des parties et des faits clés dans des actes de 500+ pages

Pièges courants à éviter

Tableaux complexes : les tableaux imbriqués ou fusionnés peuvent ressortir de façon confuse dans le texte extrait ; utilisez l'OCR sur image en solution de repli
Formules mathématiques : le LaTeX dans les PDFs devient du texte illisible ; les vision models s'en sortent mieux
Documents numérisés anciens : les PDFs composés uniquement d'images (sans texte) nécessitent un OCR qui peut commettre des erreurs
Langues rares : les langues peu dotées en ressources donnent des résultats OCR moins fiables
PDFs sécurisés : les PDFs protégés contre la copie peuvent bloquer l'extraction — un mot de passe est requis

Questions qui fonctionnent bien vs mal

Bien :
- « Quel est l'argument central du chapitre 3 ? »
- « Listez toutes les dates mentionnées dans ce rapport »
- « Comparez les conclusions de la section 4 et de la section 7 »
- « Quel était le chiffre d'affaires net en 2025 ? »

Mal :
- « Résumez ce PDF en entier en 2 paragraphes » (demande un contexte complet qui peut être fragmenté en RAG)
- « Quel est le ton émotionnel de l'auteur à la fin ? » (nuance difficile à saisir dans des chunks)
- « Que voit-on sur l'image de la page 45 ? » (nécessite un vision model dédié)

comparação visual de 2 colunas — "perguntas que funcionam" com checkmarks verdes

Intégration via API

`python
import httpx

# Upload du PDF en premier
with open("contrat.pdf", "rb") as f:
r = httpx.post(
"https://api.brainiall.com/v1/files",
files={"file": f},
headers={"Authorization": "Bearer brnl-xxx"}
)
file_id = r.json()["id"]

# Ensuite, chat en référençant le fichier
r = httpx.post(
"https://api.brainiall.com/v1/chat/completions",
json={
"model": "claude-sonnet-4-6",
"messages": [
{"role": "user", "content": [
{"type": "text", "text": "Listez toutes les parties de ce contrat"},
{"type": "file", "file_id": file_id}
]}
]
},
headers={"Authorization": "Bearer brnl-xxx"}
)
`

Essayez dès maintenant

Dans le chat Brainiall, glissez-déposez un PDF dans la zone de saisie et posez vos questions. Jusqu'à 10 Mo par fichier. L'offre Pro à 29 R$ permet des uploads généreux ; l'offre Business inclut le traitement par lot et une rétention de 30 jours.