要約
本論文は、感情認識のためのマルチモーダル情報の融合の重要性と実現可能性を示すことを目的としている。本論文では、入力映像から抽出された視覚的顔特徴量とrPPG信号の情報を融合することで、感情理解のためのマルチモーダルフレームワークを導入する。また、順列特徴量重要度分析に基づく解釈可能性手法により、与えられた入力映像を特定の感情クラスに分類するためのrPPGと視覚モダリティの貢献度を計算するために実装されている。IEMOCAPデータセットを用いた実験により、複数のモダリティからの相補的な情報を組み合わせることで、感情分類の性能が向上することが示された。
要約(オリジナル)
This paper aims to demonstrate the importance and feasibility of fusing multimodal information for emotion recognition. It introduces a multimodal framework for emotion understanding by fusing the information from visual facial features and rPPG signals extracted from the input videos. An interpretability technique based on permutation feature importance analysis has also been implemented to compute the contributions of rPPG and visual modalities toward classifying a given input video into a particular emotion class. The experiments on IEMOCAP dataset demonstrate that the emotion classification performance improves by combining the complementary information from multiple modalities.
arxiv情報
| 著者 | Puneet Kumar,Xiaobai Li |
| 発行日 | 2023-06-05 12:57:07+00:00 |
| arxivサイト | arxiv_id(pdf) |