A vector quantized masked autoencoder for audiovisual speech emotion recognition

要約

タイトル:音声視覚的話し言葉の感情認識のためのベクトル量子化マスクされたオートエンコーダー

要約:

– 完全教師ありモデルは音声視覚的話し言葉の感情認識で有効であることが示されているが、ラベル付きデータの制限された可用性が依然として重大な課題である。
– この問題に対処するために、自己教師あり学習手法であるマスクされたオートエンコーダー(MAE)が潜在的な解決策として人気を博している。
– 本論文では、音声視覚的自己教師あり表現学習に特化したベクトル量子化MAE-AVモデルを提案する。
– 既存の多次元MAEが生の音声視覚的話し言葉データの処理に依存しているのに対し、提案手法は、2つの事前学習されたベクトル量子化変分オートエンコーダーによって学習された離散音声と視覚的話し言葉表現に基づく自己教師ありパラダイムを採用する。
– 実験結果は、VoxCeleb2データベースで事前学習し、標準的な感情音声視覚的話し言葉データセットでファインチューニングした提案手法が、最新の音声視覚的感情認識手法を上回ることを示している。

要約(オリジナル)

While fully-supervised models have been shown to be effective for audiovisual speech emotion recognition (SER), the limited availability of labeled data remains a major challenge in the field. To address this issue, self-supervised learning approaches, such as masked autoencoders (MAEs), have gained popularity as potential solutions. In this paper, we propose the VQ-MAE-AV model, a vector quantized MAE specifically designed for audiovisual speech self-supervised representation learning. Unlike existing multimodal MAEs that rely on the processing of the raw audiovisual speech data, the proposed method employs a self-supervised paradigm based on discrete audio and visual speech representations learned by two pre-trained vector quantized variational autoencoders. Experimental results show that the proposed approach, which is pre-trained on the VoxCeleb2 database and fine-tuned on standard emotional audiovisual speech datasets, outperforms the state-of-the-art audiovisual SER methods.

arxiv情報

著者 Samir Sadok,Simon Leglaive,Renaud Séguier
発行日 2023-05-05 14:19:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS パーマリンク