要約
ラベル付きデータの利用可能性が限られていることが、視聴覚音声感情認識 (SER) における大きな課題です。
自己教師あり学習アプローチは、さまざまなアプリケーションにおけるラベル付きデータの必要性を軽減するために最近提案されています。
この論文では、視聴覚音声自己教師あり表現学習用に設計され、SER に適用されるベクトル量子化マスク オートエンコーダ (MAE) である VQ-MAE-AV モデルを提案します。
以前のアプローチとは異なり、提案された方法は、ベクトル量子化変分オートエンコーダによって学習された離散音声および視覚音声表現に基づく自己教師ありパラダイムを採用します。
セルフアテンションまたはクロスアテンションメカニズムを備えたマルチモーダル MAE は、音声と視覚の音声モダリティを融合し、視聴覚音声シーケンスのローカルおよびグローバル表現を学習し、SER ダウンストリーム タスクに使用するために提案されています。
実験結果は、VoxCeleb2 データベースで事前トレーニングされ、標準的な感情視聴覚音声データセットで微調整された提案されたアプローチが、最先端の視聴覚 SER 手法よりも優れていることを示しています。
さまざまなモデルコンポーネントの寄与を評価するために、広範なアブレーション実験も提供されます。
要約(オリジナル)
The limited availability of labeled data is a major challenge in audiovisual speech emotion recognition (SER). Self-supervised learning approaches have recently been proposed to mitigate the need for labeled data in various applications. This paper proposes the VQ-MAE-AV model, a vector quantized masked autoencoder (MAE) designed for audiovisual speech self-supervised representation learning and applied to SER. Unlike previous approaches, the proposed method employs a self-supervised paradigm based on discrete audio and visual speech representations learned by vector quantized variational autoencoders. A multimodal MAE with self- or cross-attention mechanisms is proposed to fuse the audio and visual speech modalities and to learn local and global representations of the audiovisual speech sequence, which are then used for an SER downstream task. Experimental results show that the proposed approach, which is pre-trained on the VoxCeleb2 database and fine-tuned on standard emotional audiovisual speech datasets, outperforms the state-of-the-art audiovisual SER methods. Extensive ablation experiments are also provided to assess the contribution of the different model components.
arxiv情報
著者 | Samir Sadok,Simon Leglaive,Renaud Séguier |
発行日 | 2024-05-15 13:54:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google