要約
この論文では、微表情 (ME) と生理学的信号 (PS) に焦点を当て、潜在感情認識の精度を向上させるためにマルチモーダル データを組み込む利点について説明します。
提案されたアプローチは、ME と PS を組み合わせた新しいマルチモーダル学習フレームワークを提示します。これには、1D 分離可能および混合可能な深さ方向の開始ネットワーク、標準化された正規分布加重特徴融合法、およびマルチモーダル学習用の深度/生理学誘導型注意モジュールが含まれます。
実験結果は、提案されたアプローチがベンチマーク法よりも優れており、加重融合法と誘導注意モジュールの両方がパフォーマンスの向上に貢献していることを示しています。
要約(オリジナル)
This paper discusses the benefits of incorporating multimodal data for improving latent emotion recognition accuracy, focusing on micro-expression (ME) and physiological signals (PS). The proposed approach presents a novel multimodal learning framework that combines ME and PS, including a 1D separable and mixable depthwise inception network, a standardised normal distribution weighted feature fusion method, and depth/physiology guided attention modules for multimodal learning. Experimental results show that the proposed approach outperforms the benchmark method, with the weighted fusion method and guided attention modules both contributing to enhanced performance.
arxiv情報
著者 | Liangfei Zhang,Yifei Qian,Ognjen Arandjelovic,Anthony Zhu |
発行日 | 2023-08-23 14:17:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google