MVP: Multimodal Emotion Recognition based on Video and Physiological Signals


私たちは、ビデオと生理学的信号を融合するために合理化されたビデオと生理学的マルチモーダル (MVP) アーキテクチャを設計して、このギャップを埋めることを提案します。
他のアプローチとは異なり、MVP は注意の利点を利用して、長い入力シーケンス (1 ~ 2 分) の使用を可能にします。
私たちの結果は、MVP が顔ビデオ、EDA、ECG/PPG に基づく感情認識の以前の方法よりも優れていることを示しています。


Human emotions entail a complex set of behavioral, physiological and cognitive changes. Current state-of-the-art models fuse the behavioral and physiological components using classic machine learning, rather than recent deep learning techniques. We propose to fill this gap, designing the Multimodal for Video and Physio (MVP) architecture, streamlined to fuse video and physiological signals. Differently then others approaches, MVP exploits the benefits of attention to enable the use of long input sequences (1-2 minutes). We have studied video and physiological backbones for inputting long sequences and evaluated our method with respect to the state-of-the-art. Our results show that MVP outperforms former methods for emotion recognition based on facial videos, EDA, and ECG/PPG.


著者 Valeriya Strizhkova,Hadi Kachmar,Hava Chaptoukaev,Raphael Kalandadze,Natia Kukhilava,Tatia Tsmindashvili,Nibras Abo-Alzahab,Maria A. Zuluaga,Michal Balazia,Antitza Dantcheva,François Brémond,Laura Ferrari
発行日 2025-01-06 16:09:22+00:00
