AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition

要約

視聴覚音声には、自動音声認識 (ASR) と視覚音声認識 (VSR) の両方の表現を学習するためのクロスモーダル監視を提供する、同期された音声情報と視覚情報が含まれています。
オーディオビジュアル音声認識のための連続擬似ラベル付け (AV-CPL) を導入します。これは、継続的に再生成される擬似ラベルを使用して、ラベル付きビデオとラベルなしビデオの組み合わせでオーディオビジュアル音声認識 (AVSR) モデルをトレーニングするための半教師あり手法です。
私たちのモデルは、オーディオビジュアル入力からの音声認識用にトレーニングされており、オーディオとビジュアルの両方のモダリティ、または 1 つのモダリティのみを使用して音声認識を実行できます。
私たちの方法では、教師ありトレーニングと擬似ラベル生成の両方に同じ視聴覚モデルを使用し、擬似ラベルを生成するための外部音声認識モデルの必要性を軽減します。
AV-CPL は、実用的な ASR および AVSR パフォーマンスを維持しながら、LRS3 データセットの VSR パフォーマンスを大幅に向上させます。
最後に、視覚のみの音声データを使用することで、私たちの方法はラベルのない視覚音声を活用して VSR を向上させることができます。

要約(オリジナル)

Audio-visual speech contains synchronized audio and visual information that provides cross-modal supervision to learn representations for both automatic speech recognition (ASR) and visual speech recognition (VSR). We introduce continuous pseudo-labeling for audio-visual speech recognition (AV-CPL), a semi-supervised method to train an audio-visual speech recognition (AVSR) model on a combination of labeled and unlabeled videos with continuously regenerated pseudo-labels. Our models are trained for speech recognition from audio-visual inputs and can perform speech recognition using both audio and visual modalities, or only one modality. Our method uses the same audio-visual model for both supervised training and pseudo-label generation, mitigating the need for external speech recognition models to generate pseudo-labels. AV-CPL obtains significant improvements in VSR performance on the LRS3 dataset while maintaining practical ASR and AVSR performance. Finally, using visual-only speech data, our method is able to leverage unlabeled visual speech to improve VSR.

arxiv情報

著者 Andrew Rouditchenko,Ronan Collobert,Tatiana Likhomanenko
発行日 2023-09-29 16:57:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, stat.ML パーマリンク