要約
会話における感情認識 (ERC) は、会話中の各発話の感情を認識するタスクであり、共感マシンを構築するために重要です。
既存の研究は主に、テキストのモダリティに対する文脈と話者に依存する依存関係を捉えることに焦点を当てていますが、マルチモーダル情報の重要性は無視されています。
テキスト会話における感情認識とは異なり、発話間のモーダル内およびモーダル間の相互作用のキャプチャ、異なるモダリティ間の重みの学習、およびモーダル表現の強化は、マルチモーダル ERC において重要な役割を果たします。
この論文では、このタスクのために自己蒸留 (SDT) を備えた変圧器ベースのモデルを提案します。
トランスフォーマーベースのモデルは、モーダル内トランスフォーマーとモーダル間トランスフォーマーを利用することでモーダル内およびモーダル間の相互作用を捕捉し、階層型ゲート融合戦略を設計することでモダリティ間の重みを動的に学習します。
さらに、より表現力豊かなモーダル表現を学習するために、提案されたモデルのソフトラベルを追加のトレーニング監視として扱います。
具体的には、自己蒸留を導入して、ハードラベルとソフトラベルの知識を提案されたモデルから各モダリティに転送します。
IEMOCAP および MELD データセットの実験では、SDT が以前の最先端のベースラインを上回るパフォーマンスを示しています。
要約(オリジナル)
Emotion recognition in conversations (ERC), the task of recognizing the emotion of each utterance in a conversation, is crucial for building empathetic machines. Existing studies focus mainly on capturing context- and speaker-sensitive dependencies on the textual modality but ignore the significance of multimodal information. Different from emotion recognition in textual conversations, capturing intra- and inter-modal interactions between utterances, learning weights between different modalities, and enhancing modal representations play important roles in multimodal ERC. In this paper, we propose a transformer-based model with self-distillation (SDT) for the task. The transformer-based model captures intra- and inter-modal interactions by utilizing intra- and inter-modal transformers, and learns weights between modalities dynamically by designing a hierarchical gated fusion strategy. Furthermore, to learn more expressive modal representations, we treat soft labels of the proposed model as extra training supervision. Specifically, we introduce self-distillation to transfer knowledge of hard and soft labels from the proposed model to each modality. Experiments on IEMOCAP and MELD datasets demonstrate that SDT outperforms previous state-of-the-art baselines.
arxiv情報
著者 | Hui Ma,Jian Wang,Hongfei Lin,Bo Zhang,Yijia Zhang,Bo Xu |
発行日 | 2023-10-31 14:33:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google