Transkribieren Sie stundenlange Audio-/Videodateien auf Portugiesisch (Brasilien) mit hoher Präzision

iniciante · 8 min · Por Ana Brainiall

Warum Whisper zum Standard für STT wurde

Whisper, 2022 von OpenAI veröffentlicht (Open Source), hat das Speech-to-Text-Spiel verändert. Es wurde auf 680.000 Stunden transkribiertem mehrsprachigem Audio trainiert – 10-mal mehr Daten als jedes vorherige Modell. Das verschaffte ihm drei Vorteile, die Konkurrenten bis heute nicht übertreffen:

1. Robuste Mehrsprachigkeit: hervorragend in 99 Sprachen, einschließlich PT-BR, PT-PT und regionaler Dialekte
2. Rauschtoleranz: funktioniert bei Audioaufnahmen mit Hintergrundmusik, Straßenlärm und parallelen Gesprächen
3. Automatische Zeichensetzung: entscheidet selbstständig, wo Kommas, Punkte und Absätze gesetzt werden – keine Nachbearbeitung erforderlich

Bei Brainiall verwenden wir Whisper Large v3 (das größte, präziseste Modell), das auf einer dedizierten GPU läuft, um eine Latenz von unter 15 Sekunden bei Clips von bis zu 10 Minuten zu erreichen.

gráfico de barras comparando precisão (Word Error Rate) em PT-BR — Whisper Large

Wie das Modell "zuhört

Whisper konvertiert Audio in Mel-Spektrogramme — eine visuelle Darstellung von Frequenz vs. Zeit. Das Modell ist ein Transformer Encoder-Decoder, der das Spektrogramm als „Input" behandelt und Text als „Output" generiert, sehr ähnlich wie Übersetzungsmodelle funktionieren.

Der entscheidende Trick ist, dass Whisper auf einer simultanen Multi-Ziel-Aufgabe trainiert wurde:
- Transkription in derselben Sprache (STT)
- Übersetzung ins Englische (STT + Übersetzung)
- Sprachidentifikation ohne vorherige Ankündigung
- Segmentierung mit Zeitstempeln

Das bedeutet, dass ein einziges Modell Transkription + Übersetzung + Identifikation löst — drei Aufgaben, die zuvor von drei separaten Modellen erledigt wurden.

Unterstützte Formate und praktische Grenzen

Brainiall akzeptiert:
- Formate: mp3, mp4, wav, ogg, webm, m4a, flac, mpeg
- Maximale Größe: 25 MB pro Datei
- Empfohlene Dauer: bis zu 10 Minuten pro Request — bei längeren Audios aufteilen
- Abtastrate: beliebig — wird intern auf 16kHz neu abgetastet
- Kanäle: Mono oder Stereo — beides OK (Stereo wird in Mono konvertiert)

Um einen 1-stündigen Podcast zu transkribieren, teilen Sie ihn über ffmpeg in 10-Minuten-Blöcke auf und fügen Sie die Transkriptionen anschließend zusammen.

Qualität nach Audiotyp

Ausgezeichnet (>97% Genauigkeit):
- Podcasts mit dediziertem Mikrofon
- Unternehmensinterviews in ruhigem Raum
- Redaktionelle Videokommentare
- Reden in Zoom/Meet-Telekonferenzen

Gut (90-95% Genauigkeit):
- Besprechungsaufnahmen über Laptop
- Im Smartphone aufgezeichnete Unterrichtsstunden
- In ruhiger Außenumgebung gedrehte Vlogs

Herausfordernd (<85% Genauigkeit):
- Gesungene Musik (Whisper versucht es, macht aber viele Fehler beim Liedtext)
- Audio mit mehreren gleichzeitig sprechenden Personen
- Komprimierte Telefonanrufe (8kHz)
- Sehr spezifische Regionalismen und Umgangssprache

matriz visual de 4 quadrantes com exemplos de cada nível de precisão e causa — m

Prompt-Tricks

Whisper akzeptiert einen initial_prompt — einen String, der die Transkription steuert. Verwenden Sie ihn für:

Spezifisches Vokabular: „Dies ist ein Meeting über Kardiologie mit Begriffen wie Angioplastie, Stent, Herzinfarkt"
Eigennamen: „Die sprechenden Personen sind Fábio Suizu und Maria Santos"
Formatierungsstil: „Verwenden Sie Großbuchstaben für Titel, getrennte Absätze bei jedem Themenwechsel"
Dialekt: „Brasilianisches Portugiesisch mit Ausdrücken aus São Paulo"

Dies kann die Genauigkeit bei schwierigen Audiodateien um 3–5 Prozentpunkte steigern.

Praktische Anwendungsfälle

Automatische Untertitelung: transkribieren + Zeitstempel hinzufügen + SRT formatieren
Besprechungsnotizen: den gesamten Anruf transkribieren + LLM um Zusammenfassung bitten
Videorecherche: Ihre Datei in durchsuchbaren Text umwandeln
Echtzeit-Assistent: STT + LLM + TTS = vollständiger Sprachassistent
Barrierefreiheit: automatische Untertitel für Unternehmensschulungsvideos

Teste jetzt gleich

Im Brainiall-Chat klicken Sie auf die Dateianhang-Schaltfläche, senden Sie eine MP3- oder MP4-Datei und bitten Sie um „transcreva este áudio". Oder über die API unter der Route /api/transcribe. Der Pro-Plan für €5,49 bietet großzügige Nutzung; Business umfasst API-Kredite für externe Automatisierung.