Ana Brainiall

Transcrivez des heures d'audio/vidéo dans toute langue avec précision

iniciante · 8 min · Por Ana Brainiall

Pourquoi Whisper est devenu la référence du STT

Whisper, lancé par OpenAI en 2022 (open source), a révolutionné le Speech-to-Text. Il a été entraîné sur 680 000 heures d'audio multilingue transcrit — 10 fois plus de données que n'importe quel modèle précédent. Cela lui confère trois avantages que ses concurrents n'ont pas encore rattrapés :

1. Multilingue robuste : excellent dans 99 langues, dont le PT-BR, le PT-PT et les dialectes régionaux
2. Tolérance au bruit : fonctionne sur des audios avec musique de fond, bruits de rue ou conversations parallèles
3. Ponctuation automatique : décide seul où placer les virgules, les points et les paragraphes — sans retouche nécessaire

Chez Brainiall, nous utilisons Whisper Large v3 (le plus grand, le plus précis), tournant sur GPU dédié pour une latence < 15 s sur des clips allant jusqu'à 10 minutes.

gráfico de barras comparando precisão (Word Error Rate) em PT-BR — Whisper Large

Comment le modèle « écoute »

Whisper convertit l'audio en spectrogrammes Mel — une représentation visuelle de la fréquence en fonction du temps. Le modèle est un Transformer encoder-decoder qui traite le spectrogramme comme « input » et génère du texte comme « output », de façon très similaire aux modèles de traduction.

La clé du succès réside dans le fait que Whisper a été entraîné sur une tâche multi-objectifs simultanée :
- Transcrire dans la même langue (STT)
- Traduire vers l'anglais (STT + traduction)
- Identifier la langue sans indication préalable
- Segmenter avec des timestamps

Cela signifie qu'un seul modèle gère la transcription + la traduction + l'identification — trois tâches auparavant réalisées par trois modèles distincts.

Formats pris en charge et limites pratiques

Brainiall accepte :
- Formats : mp3, mp4, wav, ogg, webm, m4a, flac, mpeg
- Taille maximale : 25 Mo par fichier
- Durée recommandée : jusqu'à 10 minutes par requête — pour les audios plus longs, découpez-les
- Taux d'échantillonnage : quelconque — sera rééchantillonné à 16 kHz en interne
- Canaux : mono ou stéréo — les deux sont acceptés (le stéréo est converti en mono)

Pour transcrire un podcast d'une heure, découpez-le en blocs de 10 minutes via ffmpeg et concaténez les transcriptions ensuite.

Qualité selon le type d'audio

Excellent (> 97 % de précision) :
- Podcasts enregistrés avec un microphone dédié
- Entretiens en entreprise dans une salle silencieuse
- Narration de vidéo éditoriale
- Discours en téléconférence Zoom/Meet

Bon (90-95 % de précision) :
- Enregistrement de réunion via laptop
- Cours enregistrés sur smartphone
- Vlogs filmés dans un environnement extérieur calme

Difficile (< 85 % de précision) :
- Musique chantée (Whisper essaie mais se trompe souvent sur les paroles)
- Audio avec plusieurs personnes parlant en même temps
- Appels téléphoniques compressés (8 kHz)
- Régionalismes et argots très spécifiques

matriz visual de 4 quadrantes com exemplos de cada nível de precisão e causa — m

Astuces de prompt

Whisper accepte un initial_prompt — une chaîne de caractères qui guide la transcription. Utilisez-le pour :

Cela peut améliorer la précision de 3 à 5 points de pourcentage sur des audios difficiles.

Cas d'usage pratiques

Testez dès maintenant

Dans le chat Brainiall, cliquez sur l'icône de pièce jointe, envoyez un MP3 ou un MP4 et demandez « transcrivez cet audio ». Ou via API sur la route /api/transcribe. Le plan Pro à 29 R$ offre une utilisation généreuse ; le plan Business inclut des crédits API pour l'automatisation externe.

Ce cours vous a plu?

Débloquez 17 cours Pro + 40+ IA dans le chat + génération vidéo, musique et Studio complet.

Passer Pro · €5,49/mois

Annulez à tout moment · Sans engagement