Leveraging Label Potential for Enhanced Multimodal Emotion Recognition

要約

マルチモーダル感情認識(MER)は、感情状態を正確に予測するために、さまざまなモダリティを統合しようとしています。
ただし、現在の研究では、感情ラベルの貴重な情報を見下ろすオーディオとテキスト機能の融合のみに焦点を当てています。
感情が豊富で洞察に満ちた情報を抱いているため、この監視は既存の方法のパフォーマンスを妨げる可能性があります。
この制限を克服するために、ラベルシグナルガイドマルチモーダル感情認識(LSGMER)と呼ばれる新しいモデルを導入します。
このモデルは、MERの分類精度と安定性を高めるために、感情ラベル情報の力を完全に活用することを目的としています。
具体的には、LSGMERは、ラベルの埋め込みを介してオーディオおよびテキスト機能と対話することにより、モダリティ機能の表現を最適化するラベル信号強化モジュールを採用し、感情のニュアンスを正確にキャプチャできるようにします。
さらに、融合と感情のカテゴリとのアライメントを強化する属性予測の一貫性制約(APC)を導入することにより、分類の精度を高めるための共同目的最適化(JOO)アプローチを提案します。
IEMOCAPおよびMELDデータセットで実施された広範な実験により、提案されたLSGMERモデルの有効性が実証されています。

要約(オリジナル)

Multimodal emotion recognition (MER) seeks to integrate various modalities to predict emotional states accurately. However, most current research focuses solely on the fusion of audio and text features, overlooking the valuable information in emotion labels. This oversight could potentially hinder the performance of existing methods, as emotion labels harbor rich, insightful information that could significantly aid MER. We introduce a novel model called Label Signal-Guided Multimodal Emotion Recognition (LSGMER) to overcome this limitation. This model aims to fully harness the power of emotion label information to boost the classification accuracy and stability of MER. Specifically, LSGMER employs a Label Signal Enhancement module that optimizes the representation of modality features by interacting with audio and text features through label embeddings, enabling it to capture the nuances of emotions precisely. Furthermore, we propose a Joint Objective Optimization(JOO) approach to enhance classification accuracy by introducing the Attribution-Prediction Consistency Constraint (APC), which strengthens the alignment between fused features and emotion categories. Extensive experiments conducted on the IEMOCAP and MELD datasets have demonstrated the effectiveness of our proposed LSGMER model.

arxiv情報

著者 Xuechun Shao,Yinfeng Yu,Liejun Wang
発行日 2025-04-07 15:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク