要約
人工知能とコンピュータービジョンテクノロジーの進歩により、マルチモーダル感情認識が顕著な研究トピックになりました。
ただし、既存の方法は、不均一なデータ融合やモダリティ相関の効果的な利用などの課題に直面しています。
このペーパーでは、対照的な学習と視覚シーケンス圧縮の統合に基づいて、新しいマルチモーダル感情認識アプローチ、Deepmsi-Merを提案します。
提案された方法は、対照的な学習を通じてクロスモーダルの特徴の融合を強化し、視覚シーケンス圧縮を活用することにより、視覚モダリティの冗長性を減らします。
IEMOCAPとMELDの2つのパブリックデータセットでの実験結果は、DeepMsi-Merが感情認識の精度と堅牢性を大幅に改善し、マルチモーダル特徴融合の有効性と提案されたアプローチを検証することを示しています。
要約(オリジナル)
With the advancement of artificial intelligence and computer vision technologies, multimodal emotion recognition has become a prominent research topic. However, existing methods face challenges such as heterogeneous data fusion and the effective utilization of modality correlations. This paper proposes a novel multimodal emotion recognition approach, DeepMSI-MER, based on the integration of contrastive learning and visual sequence compression. The proposed method enhances cross-modal feature fusion through contrastive learning and reduces redundancy in the visual modality by leveraging visual sequence compression. Experimental results on two public datasets, IEMOCAP and MELD, demonstrate that DeepMSI-MER significantly improves the accuracy and robustness of emotion recognition, validating the effectiveness of multimodal feature fusion and the proposed approach.
arxiv情報
著者 | Wei Dai,Dequan Zheng,Feng Yu,Yanrong Zhang,Yaohui Hou |
発行日 | 2025-02-12 17:07:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google