Transcrivez des heures d'audio/vidéo dans toute langue avec précision

iniciante · 8 min · Por Ana Brainiall

Pourquoi Whisper est devenu la référence du STT

Whisper, lancé par OpenAI en 2022 (open source), a révolutionné le Speech-to-Text. Il a été entraîné sur 680 000 heures d'audio multilingue transcrit — 10 fois plus de données que n'importe quel modèle précédent. Cela lui confère trois avantages que ses concurrents n'ont pas encore rattrapés :

1. Multilingue robuste : excellent dans 99 langues, dont le PT-BR, le PT-PT et les dialectes régionaux
2. Tolérance au bruit : fonctionne sur des audios avec musique de fond, bruits de rue ou conversations parallèles
3. Ponctuation automatique : décide seul où placer les virgules, les points et les paragraphes — sans retouche nécessaire

Chez Brainiall, nous utilisons Whisper Large v3 (le plus grand, le plus précis), tournant sur GPU dédié pour une latence < 15 s sur des clips allant jusqu'à 10 minutes.

gráfico de barras comparando precisão (Word Error Rate) em PT-BR — Whisper Large

Comment le modèle « écoute »

Whisper convertit l'audio en spectrogrammes Mel — une représentation visuelle de la fréquence en fonction du temps. Le modèle est un Transformer encoder-decoder qui traite le spectrogramme comme « input » et génère du texte comme « output », de façon très similaire aux modèles de traduction.

La clé du succès réside dans le fait que Whisper a été entraîné sur une tâche multi-objectifs simultanée :
- Transcrire dans la même langue (STT)
- Traduire vers l'anglais (STT + traduction)
- Identifier la langue sans indication préalable
- Segmenter avec des timestamps

Cela signifie qu'un seul modèle gère la transcription + la traduction + l'identification — trois tâches auparavant réalisées par trois modèles distincts.

Formats pris en charge et limites pratiques

Brainiall accepte :
- Formats : mp3, mp4, wav, ogg, webm, m4a, flac, mpeg
- Taille maximale : 25 Mo par fichier
- Durée recommandée : jusqu'à 10 minutes par requête — pour les audios plus longs, découpez-les
- Taux d'échantillonnage : quelconque — sera rééchantillonné à 16 kHz en interne
- Canaux : mono ou stéréo — les deux sont acceptés (le stéréo est converti en mono)

Pour transcrire un podcast d'une heure, découpez-le en blocs de 10 minutes via ffmpeg et concaténez les transcriptions ensuite.

Qualité selon le type d'audio

Excellent (> 97 % de précision) :
- Podcasts enregistrés avec un microphone dédié
- Entretiens en entreprise dans une salle silencieuse
- Narration de vidéo éditoriale
- Discours en téléconférence Zoom/Meet

Bon (90-95 % de précision) :
- Enregistrement de réunion via laptop
- Cours enregistrés sur smartphone
- Vlogs filmés dans un environnement extérieur calme

Difficile (< 85 % de précision) :
- Musique chantée (Whisper essaie mais se trompe souvent sur les paroles)
- Audio avec plusieurs personnes parlant en même temps
- Appels téléphoniques compressés (8 kHz)
- Régionalismes et argots très spécifiques

matriz visual de 4 quadrantes com exemplos de cada nível de precisão e causa — m

Astuces de prompt

Whisper accepte un initial_prompt — une chaîne de caractères qui guide la transcription. Utilisez-le pour :

Vocabulaire spécifique : « Il s'agit d'une réunion sur la cardiologie incluant des termes tels qu'angioplastie, stent, infarctus du myocarde »
Noms propres : « Les personnes qui parlent sont Fábio Suizu et Maria Santos »
Style de mise en forme : « Utilisez des majuscules pour les titres, des paragraphes séparés à chaque changement de sujet »
Dialecte : « Portugais brésilien avec des expressions de São Paulo »

Cela peut améliorer la précision de 3 à 5 points de pourcentage sur des audios difficiles.

Cas d'usage pratiques

Sous-titrage automatique : transcrivez + ajoutez des timestamps + formatez en SRT
Notes de réunion : transcrivez l'intégralité de l'appel + demandez au LLM de le résumer
Recherche dans les vidéos : convertissez votre fichier en texte indexable par recherche
Assistant en temps réel : STT + LLM + TTS = assistant vocal complet
Accessibilité : sous-titres automatiques pour les vidéos de formation en entreprise

Testez dès maintenant

Dans le chat Brainiall, cliquez sur l'icône de pièce jointe, envoyez un MP3 ou un MP4 et demandez « transcrivez cet audio ». Ou via API sur la route /api/transcribe. Le plan Pro à 29 R$ offre une utilisation généreuse ; le plan Business inclut des crédits API pour l'automatisation externe.