A Dual-Stream Recurrence-Attention Network With Global-Local Awareness for Emotion Recognition in Textual Dialog

要約

現実世界の対話システムでは、ユーザーの感情を理解し、擬人化して対話できる能力は非常に重要です。
会話中の感情認識 (ERC) は、この目標を達成するための重要な方法の 1 つであり、ますます注目を集めています。
会話のコンテキストをどのようにモデル化するかは、ERC タスクの中心的な側面であり、大きな課題です。
既存のアプローチのほとんどは、グローバルとローカルの両方のコンテキスト情報を適切に組み込むのに苦労しており、そのネットワーク構造は過度に洗練されています。
このため、リカレント ニューラル ネットワーク (RNN) とマルチヘッド アテンション ネットワーク (MAT) に基づく、シンプルで効果的なデュアルストリーム リカレンス アテンション ネットワーク (DualRAN) を提案します。
DualRAN は、現在の方法の複雑なコンポーネントを避け、反復ベースの方法とアテンションベースの方法を組み合わせることに重点を置いています。
DualRAN は、主にローカル認識モジュールとグローバル認識モジュールで構成されるデュアル ストリーム構造であり、異なる観点から同時に会話をモデル化します。
さらに、DualRAN 用の 2 つのシングル ストリーム ネットワーク バリアント、つまり SingleRANv1 と SingleRANv2 を開発します。
実験結果によると、DualRAN は、最も強力なベースラインと比較して、IEMOCAP および MELD データセットの加重 F1 スコアをそれぞれ 1.43% および 0.64% 向上させました。
他の 2 つのデータセット (EmoryNLP と DailyDialog) でも、私たちの方法は競合する結果を達成しました。

要約(オリジナル)

In real-world dialog systems, the ability to understand the user’s emotions and interact anthropomorphically is of great significance. Emotion Recognition in Conversation (ERC) is one of the key ways to accomplish this goal and has attracted growing attention. How to model the context in a conversation is a central aspect and a major challenge of ERC tasks. Most existing approaches struggle to adequately incorporate both global and local contextual information, and their network structures are overly sophisticated. For this reason, we propose a simple and effective Dual-stream Recurrence-Attention Network (DualRAN), which is based on Recurrent Neural Network (RNN) and Multi-head ATtention network (MAT). DualRAN eschews the complex components of current methods and focuses on combining recurrence-based methods with attention-based ones. DualRAN is a dual-stream structure mainly consisting of local- and global-aware modules, modeling a conversation simultaneously from distinct perspectives. In addition, we develop two single-stream network variants for DualRAN, i.e., SingleRANv1 and SingleRANv2. According to the experimental findings, DualRAN boosts the weighted F1 scores by 1.43% and 0.64% on the IEMOCAP and MELD datasets, respectively, in comparison to the strongest baseline. On two other datasets (i.e., EmoryNLP and DailyDialog), our method also attains competitive results.

arxiv情報

著者 Jiang Li,Xiaoping Wang,Zhigang Zeng
発行日 2023-11-22 15:43:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク