mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition

要約

Audio-Visuual Speech Speech Septureation(AVSR)は、リップベースのビデオとオーディオを組み合わせて、ノイズのパフォーマンスを向上させることができますが、ほとんどの方法は英語のデータでのみトレーニングされています。
1つの制限は、大規模な多言語ビデオデータがないことです。これにより、モデルをゼロからトレーニングするのが難しくなります。
この作業では、事前に訓練されたオーディオモデル(Whisper)とビデオモデル(AV-Hubert)の強度を組み合わせた多言語AVSRのMwhisper-Flamingoを提案します。
より良いマルチモーダル統合を有効にし、ノイズの多い多言語パフォーマンスを改善するために、ペアのオーディオ視聴覚入力と個別のオーディオ/ビジュアル入力の両方でモデルがトレーニングされるデコーダーモダリティドロップアウトを導入します。
Mwisper-Flamingoは、9言語のAVSRデータセットであるMuavicで最先端のWERを達成しています。
視聴覚MWHISPER-FLAMINGOは、騒々しい条件ですべての言語でオーディオのみのささやきを常に上回っています。

要約(オリジナル)

Audio-Visual Speech Recognition (AVSR) combines lip-based video with audio and can improve performance in noise, but most methods are trained only on English data. One limitation is the lack of large-scale multilingual video data, which makes it hard hard to train models from scratch. In this work, we propose mWhisper-Flamingo for multilingual AVSR which combines the strengths of a pre-trained audio model (Whisper) and video model (AV-HuBERT). To enable better multi-modal integration and improve the noisy multilingual performance, we introduce decoder modality dropout where the model is trained both on paired audio-visual inputs and separate audio/visual inputs. mWhisper-Flamingo achieves state-of-the-art WER on MuAViC, an AVSR dataset of 9 languages. Audio-visual mWhisper-Flamingo consistently outperforms audio-only Whisper on all languages in noisy conditions.

arxiv情報

著者 Andrew Rouditchenko,Samuel Thomas,Hilde Kuehne,Rogerio Feris,James Glass
発行日 2025-02-11 15:56:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク