MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network

要約

感情表現は一過性のものであり、マルチモーダルな手がかりの時間的なずれがあるため、野生動物における動的な感情認識は依然として困難である。従来のアプローチでは、感情価(valence)と覚醒度(arousal)を予測するが、この2つの次元の間の本質的な相関関係を見落としていることが多い。提案するMulti-modal Attention for Valence-Arousal Emotion Network (MAVEN)は、双方向のクロスモーダル注意メカニズムを介して、視覚、音声、テキストモダリティを統合する。MAVENは、モダリティに特化したエンコーダを用いて、同期されたビデオフレーム、オーディオセグメント、トランスクリプトから特徴を抽出し、ラッセルのcircumplexモデルに従って極座標で感情を予測する。MAVENを用いたAff-Wild2データセットの評価では、一致相関係数(CCC)0.3061を達成し、CCC0.22のResNet-50ベースラインモデルを上回った。多段階アーキテクチャは、会話ビデオにおける感情表現の微妙で一時的な性質を捉え、実世界の状況における感情認識を向上させます。コードはhttps://github.com/Vrushank-Ahire/MAVEN_8th_ABAW。

要約(オリジナル)

Dynamic emotion recognition in the wild remains challenging due to the transient nature of emotional expressions and temporal misalignment of multi-modal cues. Traditional approaches predict valence and arousal and often overlook the inherent correlation between these two dimensions. The proposed Multi-modal Attention for Valence-Arousal Emotion Network (MAVEN) integrates visual, audio, and textual modalities through a bi-directional cross-modal attention mechanism. MAVEN uses modality-specific encoders to extract features from synchronized video frames, audio segments, and transcripts, predicting emotions in polar coordinates following Russell’s circumplex model. The evaluation of the Aff-Wild2 dataset using MAVEN achieved a concordance correlation coefficient (CCC) of 0.3061, surpassing the ResNet-50 baseline model with a CCC of 0.22. The multistage architecture captures the subtle and transient nature of emotional expressions in conversational videos and improves emotion recognition in real-world situations. The code is available at: https://github.com/Vrushank-Ahire/MAVEN_8th_ABAW

arxiv情報

著者 Vrushank Ahire,Kunal Shah,Mudasir Nazir Khan,Nikhil Pakhale,Lownish Rai Sookha,M. A. Ganaie,Abhinav Dhall
発行日 2025-05-02 07:17:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク