Ana Brainiall

Unterhalten Sie sich mit einem 300-seitigen PDF

intermediario · 10 min · Por Ana Brainiall

Warum PDFs ein besonderes Problem darstellen

PDFs sind schwierig, weil sie 3 Welten kombinieren:

1. Strukturierter Text: Absätze, Listen, Fußnoten
2. Visuelles Layout: Spalten, Tabellen, Diagramme, Grafiken
3. Bilder: Fotos, Logos, eingebettete Screenshots

PDF ist ein Visual-first-Format: Es bewahrt das Erscheinungsbild auf jedem Gerät. Aber Text ist nur ein Nebenprodukt — den ursprünglichen semantischen Inhalt zu extrahieren ist nicht immer trivial.

Bei Brainiall, wenn Sie ein PDF hochladen:
- Extrahiert Rohtext (pdfplumber oder pdfium)
- Erkennt Tabellen (camelot oder tabula)
- Konvertiert Seiten in Bilder
- Führt OCR (Whisper-OCR oder Mistral-OCR) auf Seiten ohne extrahierbaren Text durch
- Erkennt hierarchische Struktur (Überschriften, Abschnitte)
- Optional: Zusammenfassung + Vektorisierung für RAG

ilustração de um PDF sendo "destrinchado" em 4 camadas — texto, tabelas, imagens

Gesprächsfluss: RAG vs. vollständiger Kontext

Zwei Strategien je nach Größe:

PDF < 50 Seiten (~100k Tokens):
- Senden Sie den vollständigen Text im Prompt von Claude Sonnet oder Gemini Pro
- Das Modell „sieht" alles und antwortet basierend auf dem vollständigen Kontext
- Vorteil: Es geht keine Information verloren
- Nachteil: Kostspielig bei mehreren Fragen (jeder Request verarbeitet das PDF neu)

PDF > 50 Seiten:
- Verwenden Sie RAG (Retrieval Augmented Generation)
- Teilen Sie das PDF in Chunks von ~500 Tokens auf
- Vektorisieren Sie jeden Chunk
- Bei der Frage des Benutzers suchen Sie die 5–10 semantisch relevantesten Chunks
- Senden Sie NUR diese Chunks im Prompt
- Vorteil: Günstig + skalierbar
- Nachteil: Wenn das Modell Informationen aus weit entfernten Teilen verknüpfen muss, kann der Kontext verloren gehen

Brainiall entscheidet automatisch, welche Strategie basierend auf der Größe des PDFs verwendet wird.

Praktische Anwendungsfälle

Häufige Fallstricke

Fragen, die gut vs. schlecht funktionieren

Gut:
- "Was ist das zentrale Argument in Kapitel 3?"
- "Liste alle in diesem Bericht erwähnten Daten auf"
- "Vergleiche die Schlussfolgerungen aus Abschnitt 4 und Abschnitt 7"
- "Wie hoch war der Nettoumsatz im Jahr 2025?"

Schlecht:
- "Fasse diese gesamte PDF in 2 Absätzen zusammen" (fordert vollständigen Kontext, der in RAG verloren gehen kann)
- "Welchen emotionalen Ton hat der Autor am Ende?" (Nuance, die schwer in Chunks zu erfassen ist)
- "Was ist auf dem Bild auf Seite 45?" (erfordert spezifisches Vision-Modell)

comparação visual de 2 colunas — "perguntas que funcionam" com checkmarks verdes

Integrando über API

import httpx

# Zuerst die PDF hochladen
with open("contrato.pdf", "rb") as f:
r = httpx.post(
"https://api.brainiall.com/v1/files",
files={"file": f},
headers={"Authorization": "Bearer brnl-xxx"}
)
file_id = r.json()["id"]

# Danach Chat mit Verweis auf die Datei
r = httpx.post(
"https://api.brainiall.com/v1/chat/completions",
json={
"model": "claude-sonnet-4-6",
"messages": [
{"role": "user", "content": [
{"type": "text", "text": "Liste alle Parteien dieses Vertrags auf"},
{"type": "file", "file_id": file_id}
]}
]
},
headers={"Authorization": "Bearer brnl-xxx"}
)

Teste jetzt gleich

Im Brainiall-Chat ziehen Sie eine PDF-Datei in den Eingabebereich und stellen Sie Fragen. Bis zu 10 MB pro Datei. Pro für €5,49 ermöglicht großzügige Uploads; Business bietet Batch-Verarbeitung und Aufbewahrung für 30 Tage.

Kurs gefallen?

17 Pro-Kurse + 40+ KIs im Chat + Video-, Musik- und komplette Studio-Generierung freischalten.

Pro werden · €5,49/Monat

Jederzeit kündbar · Keine Verpflichtung