要約
人間の感情を正確に認識することは、アフェティブ コンピューティングとヒューマン ロボット インタラクション (HRI) において重要な課題です。
感情的な状態は、行動、意思決定、社会的相互作用を形成する上で重要な役割を果たします。
ただし、感情表現は文脈要因の影響を受ける可能性があり、文脈を考慮しないと誤解を招く可能性があります。
顔の表情、音声、生理学的信号などのモダリティを組み合わせるマルチモーダル融合は、感情認識の向上に期待が寄せられています。
この論文では、顔の熱データ、顔の動作ユニット、およびコンテキスト認識型感情認識のためのテキストコンテキスト情報を活用する、トランスフォーマーベースのマルチモーダルフュージョンアプローチを提案します。
私たちは、調整された表現を学習するためにモダリティ固有のエンコーダーを探索し、その後、加算的融合を使用して融合し、共有トランスフォーマー エンコーダーによって処理して、時間的な依存関係と相互作用をキャプチャします。
提案された方法は、さまざまな感情状態を誘発するように設計された具体的な卓上パックマン ゲームに参加した参加者から収集されたデータセットで評価されます。
私たちの結果は、感情状態認識にコンテキスト情報とマルチモーダル融合を組み込むことの有効性を示しています。
要約(オリジナル)
Accurate recognition of human emotions is a crucial challenge in affective computing and human-robot interaction (HRI). Emotional states play a vital role in shaping behaviors, decisions, and social interactions. However, emotional expressions can be influenced by contextual factors, leading to misinterpretations if context is not considered. Multimodal fusion, combining modalities like facial expressions, speech, and physiological signals, has shown promise in improving affect recognition. This paper proposes a transformer-based multimodal fusion approach that leverages facial thermal data, facial action units, and textual context information for context-aware emotion recognition. We explore modality-specific encoders to learn tailored representations, which are then fused using additive fusion and processed by a shared transformer encoder to capture temporal dependencies and interactions. The proposed method is evaluated on a dataset collected from participants engaged in a tangible tabletop Pacman game designed to induce various affective states. Our results demonstrate the effectiveness of incorporating contextual information and multimodal fusion for affective state recognition.
arxiv情報
著者 | Youssef Mohamed,Severin Lemaignan,Arzu Guneysu,Patric Jensfelt,Christian Smith |
発行日 | 2024-09-18 12:06:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google