Unterhalten Sie sich mit einem 300-seitigen PDF

intermediario · 10 min · Por Ana Brainiall

Warum PDFs ein besonderes Problem darstellen

PDFs sind schwierig, weil sie 3 Welten kombinieren:

1. Strukturierter Text: Absätze, Listen, Fußnoten
2. Visuelles Layout: Spalten, Tabellen, Diagramme, Grafiken
3. Bilder: Fotos, Logos, eingebettete Screenshots

PDF ist ein Visual-first-Format: Es bewahrt das Erscheinungsbild auf jedem Gerät. Aber Text ist nur ein Nebenprodukt — den ursprünglichen semantischen Inhalt zu extrahieren ist nicht immer trivial.

Bei Brainiall, wenn Sie ein PDF hochladen:
- Extrahiert Rohtext (pdfplumber oder pdfium)
- Erkennt Tabellen (camelot oder tabula)
- Konvertiert Seiten in Bilder
- Führt OCR (Whisper-OCR oder Mistral-OCR) auf Seiten ohne extrahierbaren Text durch
- Erkennt hierarchische Struktur (Überschriften, Abschnitte)
- Optional: Zusammenfassung + Vektorisierung für RAG

ilustração de um PDF sendo "destrinchado" em 4 camadas — texto, tabelas, imagens

Gesprächsfluss: RAG vs. vollständiger Kontext

Zwei Strategien je nach Größe:

PDF < 50 Seiten (~100k Tokens):
- Senden Sie den vollständigen Text im Prompt von Claude Sonnet oder Gemini Pro
- Das Modell „sieht" alles und antwortet basierend auf dem vollständigen Kontext
- Vorteil: Es geht keine Information verloren
- Nachteil: Kostspielig bei mehreren Fragen (jeder Request verarbeitet das PDF neu)

PDF > 50 Seiten:
- Verwenden Sie RAG (Retrieval Augmented Generation)
- Teilen Sie das PDF in Chunks von ~500 Tokens auf
- Vektorisieren Sie jeden Chunk
- Bei der Frage des Benutzers suchen Sie die 5–10 semantisch relevantesten Chunks
- Senden Sie NUR diese Chunks im Prompt
- Vorteil: Günstig + skalierbar
- Nachteil: Wenn das Modell Informationen aus weit entfernten Teilen verknüpfen muss, kann der Kontext verloren gehen

Brainiall entscheidet automatisch, welche Strategie basierend auf der Größe des PDFs verwendet wird.

Praktische Anwendungsfälle

Rechtsdokumente: mit einem 80-seitigen Vertrag chatten, um Klauseln zu finden
Wissenschaftliche Paper: „Was sind die Hauptargumente gegen die These des Autors?"
Finanzberichte: „Vergleiche das Wachstum Q3 vs Q4 dieses 10-K"
Technische Handbücher: „Wie lautet das Verfahren zum Zurücksetzen des Geräts?"
Lehrbücher: private Nachhilfe zu jedem Thema
Rechtliche Verfahren: Suche nach Daten, Parteien und relevanten Fakten in Akten mit 500+ Seiten

Häufige Fallstricke

Komplexe Tabellen: Verschachtelte oder zusammengeführte Tabellen können im extrahierten Text unübersichtlich werden; verwenden Sie Bild-OCR als Fallback
Mathematische Formeln: LaTeX in PDFs wird zu unlesbarem Text; Vision-Modelle lösen das besser
Alte gescannte Dokumente: PDFs, die nur Bilder sind (ohne Text), erfordern OCR, die Wörter falsch erkennen kann
Exotische Sprachen: Sprachen mit wenigen Ressourcen haben schlechtere OCR-Ergebnisse
Passwortgeschützte PDFs: PDFs mit Kopierschutz können die Extraktion blockieren — Passwort erforderlich

Fragen, die gut vs. schlecht funktionieren

Gut:
- "Was ist das zentrale Argument in Kapitel 3?"
- "Liste alle in diesem Bericht erwähnten Daten auf"
- "Vergleiche die Schlussfolgerungen aus Abschnitt 4 und Abschnitt 7"
- "Wie hoch war der Nettoumsatz im Jahr 2025?"

Schlecht:
- "Fasse diese gesamte PDF in 2 Absätzen zusammen" (fordert vollständigen Kontext, der in RAG verloren gehen kann)
- "Welchen emotionalen Ton hat der Autor am Ende?" (Nuance, die schwer in Chunks zu erfassen ist)
- "Was ist auf dem Bild auf Seite 45?" (erfordert spezifisches Vision-Modell)

comparação visual de 2 colunas — "perguntas que funcionam" com checkmarks verdes

Integrando über API

import httpx

# Zuerst die PDF hochladen
with open("contrato.pdf", "rb") as f:
r = httpx.post(
"https://api.brainiall.com/v1/files",
files={"file": f},
headers={"Authorization": "Bearer brnl-xxx"}
)
file_id = r.json()["id"]

# Danach Chat mit Verweis auf die Datei
r = httpx.post(
"https://api.brainiall.com/v1/chat/completions",
json={
"model": "claude-sonnet-4-6",
"messages": [
{"role": "user", "content": [
{"type": "text", "text": "Liste alle Parteien dieses Vertrags auf"},
{"type": "file", "file_id": file_id}
]}
]
},
headers={"Authorization": "Bearer brnl-xxx"}
)

Teste jetzt gleich

Im Brainiall-Chat ziehen Sie eine PDF-Datei in den Eingabebereich und stellen Sie Fragen. Bis zu 10 MB pro Datei. Pro für €5,49 ermöglicht großzügige Uploads; Business bietet Batch-Verarbeitung und Aufbewahrung für 30 Tage.