MultiMAE-DER: Multimodal Masked Autoencoder for Dynamic Emotion Recognition

要約

この論文では、動的感情認識のためのマルチモーダル データを処理する新しいアプローチを紹介します。これは、動的感情認識用マルチモーダル マスク オートエンコーダー (MultiMAE-DER) と呼ばれます。
MultiMAE-DER は、視覚および音声モダリティにわたる時空間シーケンス内の密接に相関した表現情報を活用します。
事前トレーニングされたマスクされたオートエンコーダー モデルを利用することにより、MultiMAEDER はシンプルで簡単な微調整を通じて実現されます。
MultiMAE-DER のパフォーマンスは、マルチモーダル入力シーケンスの 6 つの融合戦略を最適化することによって強化されます。
これらの戦略は、空間シーケンス、時間シーケンス、および時空間シーケンスにわたるクロスドメイン データ内の動的な特徴相関に対処します。
動的感情認識のための最先端のマルチモーダル教師あり学習モデルと比較して、MultiMAE-DER は加重平均再現率 (WAR) を RAVDESS データセットで 4.41%、CREMAD で 2.06% 向上させます。
さらに、マルチモーダル自己教師あり学習の最先端モデルと比較すると、MultiMAE-DER は IEMOCAP データセットで 1.86% 高い WAR を達成します。

要約(オリジナル)

This paper presents a novel approach to processing multimodal data for dynamic emotion recognition, named as the Multimodal Masked Autoencoder for Dynamic Emotion Recognition (MultiMAE-DER). The MultiMAE-DER leverages the closely correlated representation information within spatiotemporal sequences across visual and audio modalities. By utilizing a pre-trained masked autoencoder model, the MultiMAEDER is accomplished through simple, straightforward finetuning. The performance of the MultiMAE-DER is enhanced by optimizing six fusion strategies for multimodal input sequences. These strategies address dynamic feature correlations within cross-domain data across spatial, temporal, and spatiotemporal sequences. In comparison to state-of-the-art multimodal supervised learning models for dynamic emotion recognition, MultiMAE-DER enhances the weighted average recall (WAR) by 4.41% on the RAVDESS dataset and by 2.06% on the CREMAD. Furthermore, when compared with the state-of-the-art model of multimodal self-supervised learning, MultiMAE-DER achieves a 1.86% higher WAR on the IEMOCAP dataset.

arxiv情報

著者 Peihao Xiang,Chaohao Lin,Kaida Wu,Ou Bai
発行日 2024-05-16 13:54:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク