SI-LSTM: Speaker Hybrid Long-short Term Memory and Cross Modal Attention for Emotion Recognition in Conversation

要約

モダリティを超えた会話における感情認識 (ERC) は、インテリジェントな医療、会話用の人工知能、チャット履歴の意見マイニングなど、さまざまなアプリケーションにとって非常に重要です。
ERC の核心は、会話全体を通じてモダリティを超えた対話と時間を超えた対話の両方をモデル化することです。
これまでの方法では、会話の時系列情報の学習は進んできましたが、会話中の各話者のさまざまな感情状態を追跡する機能はありませんでした。
この論文では、ERC タスク用の話者情報拡張長期短期記憶 (SI-LSTM) と呼ばれる反復構造を提案します。この構造では、個別の話者の感情状態を連続的に追跡して、感情の学習を強化できます。
会話の中で。
さらに、ERC におけるマルチモーダル特徴の学習を改善するために、クロスモーダル アテンション コンポーネントを利用して、異なるモダリティ間の特徴を融合し、異なるモダリティからの重要な情報の相互作用をモデル化します。
2 つのベンチマーク データセットに関する実験結果は、マルチモーダル データに対する ERC タスクにおける最先端のベースライン手法に対する提案された SI-LSTM の優位性を示しています。

要約(オリジナル)

Emotion Recognition in Conversation~(ERC) across modalities is of vital importance for a variety of applications, including intelligent healthcare, artificial intelligence for conversation, and opinion mining over chat history. The crux of ERC is to model both cross-modality and cross-time interactions throughout the conversation. Previous methods have made progress in learning the time series information of conversation while lacking the ability to trace down the different emotional states of each speaker in a conversation. In this paper, we propose a recurrent structure called Speaker Information Enhanced Long-Short Term Memory (SI-LSTM) for the ERC task, where the emotional states of the distinct speaker can be tracked in a sequential way to enhance the learning of the emotion in conversation. Further, to improve the learning of multimodal features in ERC, we utilize a cross-modal attention component to fuse the features between different modalities and model the interaction of the important information from different modalities. Experimental results on two benchmark datasets demonstrate the superiority of the proposed SI-LSTM against the state-of-the-art baseline methods in the ERC task on multimodal data.

arxiv情報

著者 Xingwei Liang,You Zou,Ruifeng Xu
発行日 2023-06-06 12:19:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク