Transcrivez des heures d'audio/vidéo dans toute langue avec précision
Pourquoi Whisper est devenu la référence du STT
Whisper, lancé par OpenAI en 2022 (open source), a révolutionné le Speech-to-Text. Il a été entraîné sur 680 000 heures d'audio multilingue transcrit — 10 fois plus de données que n'importe quel modèle précédent. Cela lui confère trois avantages que ses concurrents n'ont pas encore rattrapés :
1. Multilingue robuste : excellent dans 99 langues, dont le PT-BR, le PT-PT et les dialectes régionaux
2. Tolérance au bruit : fonctionne sur des audios avec musique de fond, bruits de rue ou conversations parallèles
3. Ponctuation automatique : décide seul où placer les virgules, les points et les paragraphes — sans retouche nécessaire
Chez Brainiall, nous utilisons Whisper Large v3 (le plus grand, le plus précis), tournant sur GPU dédié pour une latence < 15 s sur des clips allant jusqu'à 10 minutes.

Comment le modèle « écoute »
Whisper convertit l'audio en spectrogrammes Mel — une représentation visuelle de la fréquence en fonction du temps. Le modèle est un Transformer encoder-decoder qui traite le spectrogramme comme « input » et génère du texte comme « output », de façon très similaire aux modèles de traduction.
La clé du succès réside dans le fait que Whisper a été entraîné sur une tâche multi-objectifs simultanée :
- Transcrire dans la même langue (STT)
- Traduire vers l'anglais (STT + traduction)
- Identifier la langue sans indication préalable
- Segmenter avec des timestamps
Cela signifie qu'un seul modèle gère la transcription + la traduction + l'identification — trois tâches auparavant réalisées par trois modèles distincts.
Formats pris en charge et limites pratiques
Brainiall accepte :
- Formats : mp3, mp4, wav, ogg, webm, m4a, flac, mpeg
- Taille maximale : 25 Mo par fichier
- Durée recommandée : jusqu'à 10 minutes par requête — pour les audios plus longs, découpez-les
- Taux d'échantillonnage : quelconque — sera rééchantillonné à 16 kHz en interne
- Canaux : mono ou stéréo — les deux sont acceptés (le stéréo est converti en mono)
Pour transcrire un podcast d'une heure, découpez-le en blocs de 10 minutes via ffmpeg et concaténez les transcriptions ensuite.
Qualité selon le type d'audio
Excellent (> 97 % de précision) :
- Podcasts enregistrés avec un microphone dédié
- Entretiens en entreprise dans une salle silencieuse
- Narration de vidéo éditoriale
- Discours en téléconférence Zoom/Meet
Bon (90-95 % de précision) :
- Enregistrement de réunion via laptop
- Cours enregistrés sur smartphone
- Vlogs filmés dans un environnement extérieur calme
Difficile (< 85 % de précision) :
- Musique chantée (Whisper essaie mais se trompe souvent sur les paroles)
- Audio avec plusieurs personnes parlant en même temps
- Appels téléphoniques compressés (8 kHz)
- Régionalismes et argots très spécifiques

Astuces de prompt
Whisper accepte un initial_prompt — une chaîne de caractères qui guide la transcription. Utilisez-le pour :
- Vocabulaire spécifique : « Il s'agit d'une réunion sur la cardiologie incluant des termes tels qu'angioplastie, stent, infarctus du myocarde »
- Noms propres : « Les personnes qui parlent sont Fábio Suizu et Maria Santos »
- Style de mise en forme : « Utilisez des majuscules pour les titres, des paragraphes séparés à chaque changement de sujet »
- Dialecte : « Portugais brésilien avec des expressions de São Paulo »
Cela peut améliorer la précision de 3 à 5 points de pourcentage sur des audios difficiles.
Cas d'usage pratiques
- Sous-titrage automatique : transcrivez + ajoutez des timestamps + formatez en SRT
- Notes de réunion : transcrivez l'intégralité de l'appel + demandez au LLM de le résumer
- Recherche dans les vidéos : convertissez votre fichier en texte indexable par recherche
- Assistant en temps réel : STT + LLM + TTS = assistant vocal complet
- Accessibilité : sous-titres automatiques pour les vidéos de formation en entreprise
Testez dès maintenant
Dans le chat Brainiall, cliquez sur l'icône de pièce jointe, envoyez un MP3 ou un MP4 et demandez « transcrivez cet audio ». Ou via API sur la route /api/transcribe. Le plan Pro à 29 R$ offre une utilisation généreuse ; le plan Business inclut des crédits API pour l'automatisation externe.