MVP: Multimodal Emotion Recognition based on Video and Physiological Signals

要約

人間の感情には、行動、生理学的、認知の複雑な変化が伴います。
現在の最先端のモデルは、最近の深層学習技術ではなく、古典的な機械学習を使用して行動コンポーネントと生理学的コンポーネントを融合しています。
私たちは、ビデオと生理学的信号を融合するために合理化されたビデオと生理学的マルチモーダル (MVP) アーキテクチャを設計して、このギャップを埋めることを提案します。
他のアプローチとは異なり、MVP は注意の利点を利用して、長い入力シーケンス (1 ~ 2 分) の使用を可能にします。
私たちは、長いシーケンスを入力するためのビデオと生理学的バックボーンを研究し、最先端の方法に関して評価してきました。
私たちの結果は、MVP が顔ビデオ、EDA、ECG/PPG に基づく感情認識の以前の方法よりも優れていることを示しています。

要約(オリジナル)

Human emotions entail a complex set of behavioral, physiological and cognitive changes. Current state-of-the-art models fuse the behavioral and physiological components using classic machine learning, rather than recent deep learning techniques. We propose to fill this gap, designing the Multimodal for Video and Physio (MVP) architecture, streamlined to fuse video and physiological signals. Differently then others approaches, MVP exploits the benefits of attention to enable the use of long input sequences (1-2 minutes). We have studied video and physiological backbones for inputting long sequences and evaluated our method with respect to the state-of-the-art. Our results show that MVP outperforms former methods for emotion recognition based on facial videos, EDA, and ECG/PPG.

arxiv情報

著者 Valeriya Strizhkova,Hadi Kachmar,Hava Chaptoukaev,Raphael Kalandadze,Natia Kukhilava,Tatia Tsmindashvili,Nibras Abo-Alzahab,Maria A. Zuluaga,Michal Balazia,Antitza Dantcheva,François Brémond,Laura Ferrari
発行日 2025-01-06 16:09:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, 68T10, cs.CV, I.5 パーマリンク