VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning

要約

音声は人間が外界と通信するためのシンプルかつ効果的な方法ですが、より現実的な音声インタラクションには、視覚やテキストなどのマルチモーダルな情報が含まれます。
音声表現の学習を促進するために、さまざまなモーダル情報を統合し、さまざまなリソース(視覚と音声のペア、音声とテキストのペア、ラベルなし音声、ラベルなしテキストなど)を活用する統一フレームワークを設計する方法は、十分に検討されていませんでした。
本稿では、統合クロスモーダル表現学習フレームワーク VATLM (Visual-Audio-Text Language Model) を提案します。
提案された VATLM は、統合バックボーン ネットワークを使用してモダリティに依存しない情報をモデル化し、3 つの単純なモダリティ依存モジュールを利用して視覚、音声、およびテキスト入力を前処理します。
これら 3 つのモダリティを 1 つの共有セマンティック空間に統合するために、VATLM は、私たちが提案する統合トークナイザーによって与えられる、統合トークンのマスクされた予測タスクを使用して最適化されます。
視聴覚音声認識 (AVSR) や視覚音声認識 (VSR) タスクなど、視聴覚関連の下流タスクで事前トレーニングされた VATLM を評価します。
結果は、提案された VATLM が、視聴覚の事前トレーニングされた AV-HuBERT モデルなどの以前の最先端のモデルよりも優れていることを示し、分析では、VATLM が異なるモダリティを同じ空間に配置できることも示しています。
将来の研究を促進するために、コードと事前トレーニングされたモデルを https://aka.ms/vatlm でリリースします。

要約(オリジナル)

Although speech is a simple and effective way for humans to communicate with the outside world, a more realistic speech interaction contains multimodal information, e.g., vision, text. How to design a unified framework to integrate different modal information and leverage different resources (e.g., visual-audio pairs, audio-text pairs, unlabeled speech, and unlabeled text) to facilitate speech representation learning was not well explored. In this paper, we propose a unified cross-modal representation learning framework VATLM (Visual-Audio-Text Language Model). The proposed VATLM employs a unified backbone network to model the modality-independent information and utilizes three simple modality-dependent modules to preprocess visual, speech, and text inputs. In order to integrate these three modalities into one shared semantic space, VATLM is optimized with a masked prediction task of unified tokens, given by our proposed unified tokenizer. We evaluate the pre-trained VATLM on audio-visual related downstream tasks, including audio-visual speech recognition (AVSR), visual speech recognition (VSR) tasks. Results show that the proposed VATLM outperforms previous the state-of-the-art models, such as audio-visual pre-trained AV-HuBERT model, and analysis also demonstrates that VATLM is capable of aligning different modalities into the same space. To facilitate future research, we release the code and pre-trained models at https://aka.ms/vatlm.

arxiv情報

著者 Qiushi Zhu,Long Zhou,Ziqiang Zhang,Shujie Liu,Binxing Jiao,Jie Zhang,Lirong Dai,Daxin Jiang,Jinyu Li,Furu Wei
発行日 2023-05-19 10:03:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS パーマリンク