CFN-ESA: A Cross-Modal Fusion Network with Emotion-Shift Awareness for Dialogue Emotion Recognition

要約

会話におけるマルチモーダル感情認識 (ERC) は、さまざまな分野の研究コミュニティからの注目を集めています。
この論文では、ERC のための感情シフト認識を備えたクロスモーダル融合ネットワーク (CFN-ESA) を提案します。
既存のアプローチは、感情情報の量を区別せずに各モダリティを均等に使用するため、マルチモーダル データから相補的で関連性のある情報を適切に抽出することが困難になります。
この問題に対処するために、CFN-ESA では、テキスト モダリティが感情情報の一次情報源として扱われ、視覚および音響モダリティが二次情報源として扱われます。
さらに、ほとんどのマルチモーダル ERC モデルは、感情の変化情報を無視し、コンテキスト情報に過度に焦点を当てるため、感情の変化シナリオでは感情認識の失敗につながります。
私たちは、この課題に対処するために感情変化モジュールを精緻に開発しました。
CFN-ESA は主に、ユニモーダル エンコーダー (RUME)、クロスモーダル エンコーダー (ACME)、および感情シフト モジュール (LESM) で構成されます。
RUME は、モダリティ間のデータ分布を統合しながら、会話レベルの状況に応じた感情的な手がかりを抽出するために適用されます。
ACME は、テキスト モダリティを中心としたマルチモーダル インタラクションを実行するために利用されます。
LESM は、感情の変化をモデル化し、関連情報を取得するために使用され、それによって主要なタスクの学習をガイドします。
実験結果は、CFN-ESA が ERC のパフォーマンスを効果的に向上させ、最先端のモデルを著しく上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

Multimodal Emotion Recognition in Conversation (ERC) has garnered growing attention from research communities in various fields. In this paper, we propose a cross-modal fusion network with emotion-shift awareness (CFN-ESA) for ERC. Extant approaches employ each modality equally without distinguishing the amount of emotional information, rendering it hard to adequately extract complementary and associative information from multimodal data. To cope with this problem, in CFN-ESA, textual modalities are treated as the primary source of emotional information, while visual and acoustic modalities are taken as the secondary sources. Besides, most multimodal ERC models ignore emotion-shift information and overfocus on contextual information, leading to the failure of emotion recognition under emotion-shift scenario. We elaborate an emotion-shift module to address this challenge. CFN-ESA mainly consists of the unimodal encoder (RUME), cross-modal encoder (ACME), and emotion-shift module (LESM). RUME is applied to extract conversation-level contextual emotional cues while pulling together the data distributions between modalities; ACME is utilized to perform multimodal interaction centered on textual modality; LESM is used to model emotion shift and capture related information, thereby guide the learning of the main task. Experimental results demonstrate that CFN-ESA can effectively promote performance for ERC and remarkably outperform the state-of-the-art models.

arxiv情報

著者 Jiang Li,Yingjian Liu,Xiaoping Wang,Zhigang Zeng
発行日 2023-07-28 09:29:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク