Phiên âm hàng giờ audio/video bằng tiếng Bồ Đào Nha với độ chính xác cao

iniciante · 8 min · Por Ana Brainiall

Tại sao Whisper trở thành chuẩn mực của STT

Whisper, được OpenAI ra mắt năm 2022 (open source), đã thay đổi hoàn toàn cuộc chơi Speech-to-Text. Mô hình được huấn luyện trên 680.000 giờ audio đa ngôn ngữ có phiên âm — nhiều hơn 10 lần so với bất kỳ mô hình nào trước đó. Điều này mang lại ba lợi thế mà các đối thủ vẫn chưa따라 kịp:

1. Đa ngôn ngữ vượt trội: xuất sắc với 99 ngôn ngữ, bao gồm PT-BR, PT-PT và các phương ngữ địa phương
2. Chịu nhiễu tốt: hoạt động hiệu quả với audio có nhạc nền, tiếng ồn đường phố, các cuộc trò chuyện xung quanh
3. Tự động thêm dấu câu: tự quyết định vị trí dấu phẩy, dấu chấm, đoạn văn — không cần chỉnh sửa thủ công

Tại Brainiall, chúng tôi sử dụng Whisper Large v3 (phiên bản lớn nhất, chính xác nhất), chạy trên GPU chuyên dụng với độ trễ < 15 giây cho các clip dài đến 10 phút.

gráfico de barras comparando precisão (Word Error Rate) em PT-BR — Whisper Large

Cách mô hình "lắng nghe"

Whisper chuyển đổi audio thành Mel spectrogram — một biểu diễn trực quan về tần số theo thời gian. Mô hình là một Transformer encoder-decoder xử lý spectrogram như "input" và tạo ra văn bản như "output", rất giống cách các mô hình dịch thuật hoạt động.

Điểm đặc biệt là Whisper được huấn luyện đồng thời trên nhiều tác vụ:
- Phiên âm cùng ngôn ngữ (STT)
- Dịch sang tiếng Anh (STT + dịch thuật)
- Nhận diện ngôn ngữ mà không cần thông báo trước
- Phân đoạn với timestamp

Điều này có nghĩa là một mô hình duy nhất giải quyết phiên âm + dịch thuật + nhận diện ngôn ngữ — ba tác vụ trước đây cần đến ba mô hình riêng biệt.

Định dạng hỗ trợ và giới hạn thực tế

Brainiall chấp nhận:
- Định dạng: mp3, mp4, wav, ogg, webm, m4a, flac, mpeg
- Kích thước tối đa: 25 MB mỗi file
- Thời lượng khuyến nghị: tối đa 10 phút mỗi request — với audio dài hơn, hãy chia nhỏ
- Tần số lấy mẫu: bất kỳ — sẽ được tự động chuyển về 16kHz
- Kênh âm thanh: mono hoặc stereo — đều được (stereo sẽ được chuyển sang mono)

Để phiên âm một podcast dài 1 giờ, hãy chia thành các đoạn 10 phút bằng ffmpeg rồi ghép các bản phiên âm lại sau.

Chất lượng theo từng loại audio

Xuất sắc (>97% độ chính xác):
- Podcast với micro chuyên dụng
- Phỏng vấn doanh nghiệp trong phòng yên tĩnh
- Lồng tiếng cho video biên tập
- Bài phát biểu qua hội nghị truyền hình Zoom/Meet

Tốt (90-95% độ chính xác):
- Ghi âm cuộc họp qua laptop
- Bài giảng được ghi bằng smartphone
- Vlog quay ngoài trời trong môi trường yên tĩnh

Thách thức (<85% độ chính xác):
- Bài hát (Whisper cố gắng nhưng thường sai lời)
- Audio có nhiều người nói cùng lúc
- Cuộc gọi điện thoại bị nén (8kHz)
- Tiếng lóng và phương ngữ địa phương rất đặc thù

matriz visual de 4 quadrantes com exemplos de cada nível de precisão e causa — m

Mẹo sử dụng prompt

Whisper chấp nhận một initial_prompt — một chuỗi văn bản giúp định hướng quá trình phiên âm. Hãy dùng để:

Từ vựng chuyên ngành: "Đây là cuộc họp về tim mạch bao gồm các thuật ngữ như angioplastia, stent, infarto do miocárdio"
Tên riêng: "Những người đang nói là Fábio Suizu và Maria Santos"
Phong cách định dạng: "Dùng chữ hoa cho tiêu đề, xuống dòng mỗi khi chuyển chủ đề"
Phương ngữ: "Tiếng Bồ Đào Nha Brazil với cách diễn đạt của người São Paulo"

Điều này có thể nâng độ chính xác lên 3-5 điểm phần trăm với các audio khó.

Các trường hợp sử dụng thực tế

Tạo phụ đề tự động: phiên âm + thêm timestamp + định dạng SRT
Ghi chú cuộc họp: phiên âm toàn bộ cuộc gọi + nhờ LLM tóm tắt
Tìm kiếm trong video: chuyển file của bạn thành văn bản có thể tìm kiếm
Trợ lý thời gian thực: STT + LLM + TTS = trợ lý giọng nói hoàn chỉnh
Hỗ trợ tiếp cận: phụ đề tự động cho video đào tạo doanh nghiệp

Dùng thử ngay bây giờ

Trong chat Brainiall, nhấp vào biểu tượng đính kèm file, gửi một file MP3 hoặc MP4 và yêu cầu "phiên âm audio này". Hoặc sử dụng API tại route /api/transcribe. Gói Pro $5.99 có hạn mức sử dụng rộng rãi; gói Business bao gồm tín dụng API cho tự động hóa bên ngoài.