要約
感情認識 (ER) は、与えられたデータから人間の感情を識別するプロセスです。
現在、この分野は表情認識 (FER) に大きく依存しています。これは、表情には豊富な感情的手がかりが含まれているためです。
ただし、顔の表情は必ずしも本物の感情を正確に反映しているとは限らず、FER に基づく結果は誤解を招く ER をもたらす可能性があることに注意することが重要です。
FER と ER の間のこのギャップを理解し、埋めるために、新しい目の行動支援型マルチモーダル感情認識 (EMER) データセットを作成するための重要な感情的手がかりとして目の行動を導入します。
既存のマルチモーダル ER データセットとは異なり、EMER データセットは、刺激物質によって誘発される自発的感情生成手法を採用し、目の動きや視線マップなどの非侵襲的な目の行動データと顔のビデオを統合し、自然で正確な人間の感情を取得することを目指しています。
特に、EMER では初めて ER と FER の両方に注釈が提供され、両方のタスク間のギャップをより適切に示すための包括的な分析が可能になりました。
さらに、ER と FER の間の感情のギャップを効率的に特定して橋渡しすることで、ER と FER の両方のパフォーマンスを同時に向上させる新しい EMERT アーキテクチャを特に設計しています。具体的には、EMERT はモダリティと敵対的な機能の分離とマルチタスク Transformer を採用して、モデリングを強化します。
目の動作を調整し、顔の表情を効果的に補完します。
この実験では、EMER データセットのさまざまな包括的な評価のための 7 つのマルチモーダル ベンチマーク プロトコルを導入します。
結果は、EMERT が他の最先端のマルチモーダル手法よりも大幅に優れていることを示しており、堅牢な ER のために目の動作をモデル化することの重要性が明らかになりました。
要約すると、ER における目の動作の重要性の包括的な分析を提供し、より堅牢な ER パフォーマンスを実現するために FER と ER の間のギャップに対処する研究を進めています。
要約(オリジナル)
Emotion Recognition (ER) is the process of identifying human emotions from given data. Currently, the field heavily relies on facial expression recognition (FER) because facial expressions contain rich emotional cues. However, it is important to note that facial expressions may not always precisely reflect genuine emotions and FER-based results may yield misleading ER. To understand and bridge this gap between FER and ER, we introduce eye behaviors as an important emotional cues for the creation of a new Eye-behavior-aided Multimodal Emotion Recognition (EMER) dataset. Different from existing multimodal ER datasets, the EMER dataset employs a stimulus material-induced spontaneous emotion generation method to integrate non-invasive eye behavior data, like eye movements and eye fixation maps, with facial videos, aiming to obtain natural and accurate human emotions. Notably, for the first time, we provide annotations for both ER and FER in the EMER, enabling a comprehensive analysis to better illustrate the gap between both tasks. Furthermore, we specifically design a new EMERT architecture to concurrently enhance performance in both ER and FER by efficiently identifying and bridging the emotion gap between the two.Specifically, our EMERT employs modality-adversarial feature decoupling and multi-task Transformer to augment the modeling of eye behaviors, thus providing an effective complement to facial expressions. In the experiment, we introduce seven multimodal benchmark protocols for a variety of comprehensive evaluations of the EMER dataset. The results show that the EMERT outperforms other state-of-the-art multimodal methods by a great margin, revealing the importance of modeling eye behaviors for robust ER. To sum up, we provide a comprehensive analysis of the importance of eye behaviors in ER, advancing the study on addressing the gap between FER and ER for more robust ER performance.
arxiv情報
著者 | Yuanyuan Liu,Lin Wei,Kejun Liu,Yibing Zhan,Zijing Chen,Zhe Chen,Shiguang Shan |
発行日 | 2024-11-19 16:00:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google