Leveraging Label Information for Multimodal Emotion Recognition

要約

マルチモーダル感情認識 (MER) は、音声とテキスト情報を組み合わせることによって、特定の表情の感情状態を検出することを目的としています。
直感的には、ラベル情報は、モデルが特定の感情に関連する顕著なトークン/フレームを特定するのに役立ち、最終的に MER タスクを容易にすることができます。
これにインスピレーションを得て、ラベル情報を活用することで MER に対する新しいアプローチを提案します。
具体的には、最初にテキストと音声の両方のモダリティの代表的なラベル埋め込みを取得し、次にラベルとトークンおよびラベルとフレームの相互作用を介して各発話のラベルで強化されたテキスト/音声表現を学習します。
最後に、ラベルを認識したテキストと音声表現を融合して感情を分類するための、新しいラベルに基づく注意深い融合モジュールを考案します。
公開されている IEMOCAP データセットに対して広範な実験が行われ、実験結果は、私たちが提案したアプローチが既存のベースラインを上回り、新たな最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Multimodal emotion recognition (MER) aims to detect the emotional status of a given expression by combining the speech and text information. Intuitively, label information should be capable of helping the model locate the salient tokens/frames relevant to the specific emotion, which finally facilitates the MER task. Inspired by this, we propose a novel approach for MER by leveraging label information. Specifically, we first obtain the representative label embeddings for both text and speech modalities, then learn the label-enhanced text/speech representations for each utterance via label-token and label-frame interactions. Finally, we devise a novel label-guided attentive fusion module to fuse the label-aware text and speech representations for emotion classification. Extensive experiments were conducted on the public IEMOCAP dataset, and experimental results demonstrate that our proposed approach outperforms existing baselines and achieves new state-of-the-art performance.

arxiv情報

著者 Peiying Wang,Sunlu Zeng,Junqing Chen,Lu Fan,Meng Chen,Youzheng Wu,Xiaodong He
発行日 2023-09-05 10:26:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS パーマリンク