要約
Audio-Visual Speech Recognition (AVSR) は、リップベースのビデオを使用して、騒音下でのパフォーマンスを向上させます。
ビデオはオーディオよりも入手が難しいため、AVSR モデルのビデオ トレーニング データは通常、数千時間に制限されます。
対照的に、Whisper などの音声モデルは、数十万時間のデータを使用してトレーニングされるため、より優れた音声からテキストへのデコーダーを学習します。
トレーニング データの大きな違いにより、ビデオ入力を処理できるように Whisper を適応させる必要があります。
言語モデルに視覚的特徴を注入する Flamingo に触発され、ゲートされたクロス アテンションを使用して視覚的特徴を Whisper 音声認識および翻訳モデルに統合する Whisper-Flamingo を提案します。
当社のオーディオビジュアル Whisper-Flamingo は、騒音下での英語音声認識および 6 か国語の En-X 翻訳において、オーディオのみの Whisper よりも優れたパフォーマンスを発揮します。
さらに、Whisper-Flamingo は多用途モデルであり、1 セットのパラメータを使用してこれらのタスクをすべて実行しますが、従来のメソッドは言語ごとに個別にトレーニングされていました。
要約(オリジナル)
Audio-Visual Speech Recognition (AVSR) uses lip-based video to improve performance in noise. Since videos are harder to obtain than audio, the video training data of AVSR models is usually limited to a few thousand hours. In contrast, speech models such as Whisper are trained with hundreds of thousands of hours of data, and thus learn a better speech-to-text decoder. The huge training data difference motivates us to adapt Whisper to handle video inputs. Inspired by Flamingo which injects visual features into language models, we propose Whisper-Flamingo which integrates visual features into the Whisper speech recognition and translation model with gated cross attention. Our audio-visual Whisper-Flamingo outperforms audio-only Whisper on English speech recognition and En-X translation for 6 languages in noisy conditions. Moreover, Whisper-Flamingo is a versatile model and conducts all of these tasks using one set of parameters, while prior methods are trained separately on each language.
arxiv情報
著者 | Andrew Rouditchenko,Yuan Gong,Samuel Thomas,Leonid Karlinsky,Hilde Kuehne,Rogerio Feris,James Glass |
発行日 | 2024-06-14 14:36:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google