Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation

要約

Audio-Visual Speech Recognition (AVSR) は、リップベースのビデオを使用して、騒音下でのパフォーマンスを向上させます。
ビデオはオーディオよりも入手が難しいため、AVSR モデルのビデオ トレーニング データは通常、数千時間に制限されます。
対照的に、Whisper などの音声モデルは、数十万時間のデータを使用してトレーニングされるため、より優れた音声からテキストへのデコーダーを学習します。
トレーニング データの大きな違いにより、ビデオ入力を処理できるように Whisper を適応させる必要があります。
言語モデルに視覚的特徴を注入する Flamingo に触発され、ゲートされたクロス アテンションを使用して視覚的特徴を Whisper 音声認識および翻訳モデルに統合する Whisper-Flamingo を提案します。
当社のオーディオビジュアル Whisper-Flamingo は、騒音下での英語音声認識および 6 か国語の En-X 翻訳において、オーディオのみの Whisper よりも優れたパフォーマンスを発揮します。
さらに、Whisper-Flamingo は多用途モデルであり、1 セットのパラメータを使用してこれらのタスクをすべて実行しますが、従来のメソッドは言語ごとに個別にトレーニングされていました。

要約(オリジナル)

Audio-Visual Speech Recognition (AVSR) uses lip-based video to improve performance in noise. Since videos are harder to obtain than audio, the video training data of AVSR models is usually limited to a few thousand hours. In contrast, speech models such as Whisper are trained with hundreds of thousands of hours of data, and thus learn a better speech-to-text decoder. The huge training data difference motivates us to adapt Whisper to handle video inputs. Inspired by Flamingo which injects visual features into language models, we propose Whisper-Flamingo which integrates visual features into the Whisper speech recognition and translation model with gated cross attention. Our audio-visual Whisper-Flamingo outperforms audio-only Whisper on English speech recognition and En-X translation for 6 languages in noisy conditions. Moreover, Whisper-Flamingo is a versatile model and conducts all of these tasks using one set of parameters, while prior methods are trained separately on each language.

arxiv情報

著者 Andrew Rouditchenko,Yuan Gong,Samuel Thomas,Leonid Karlinsky,Hilde Kuehne,Rogerio Feris,James Glass
発行日 2024-06-14 14:36:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク