要約
会話における感情認識(ERC)は、複数ターンの文脈をモデル化する手法によって注目されている。学習モデルへのマルチターン入力は、入力シーケンスに特別なトークンを挿入することにより、学習過程で現在のターンと他のターンが区別されることを暗黙の前提としている。本論文では、対話の特徴を注意メカニズムに追加することで、各ターンを明示的に区別する優先度ベースの注意方法を提案する。TEDは、対話特徴として、ターン位置と話者情報に応じた優先順位を持つ。TEDは、複数のターン入力に対して、ターンに基づくベクトル間の多頭の自己注意を取り込み、対話特徴で注意スコアを調整する。TEDを4つの典型的なベンチマークで評価する。実験の結果、TEDは全てのデータセットにおいて高い総合性能を示し、多数のターンを持つIEMOCAPにおいて最先端の性能を達成した。
要約(オリジナル)
Emotion recognition in conversation (ERC) has been attracting attention by methods for modeling multi-turn contexts. The multi-turn input to a pretraining model implicitly assumes that the current turn and other turns are distinguished during the training process by inserting special tokens into the input sequence. This paper proposes a priority-based attention method to distinguish each turn explicitly by adding dialogue features into the attention mechanism, called Turn Emphasis with Dialogue (TED). It has a priority for each turn according to turn position and speaker information as dialogue features. It takes multi-head self-attention between turn-based vectors for multi-turn input and adjusts attention scores with the dialogue features. We evaluate TED on four typical benchmarks. The experimental results demonstrate that TED has high overall performance in all datasets and achieves state-of-the-art performance on IEMOCAP with numerous turns.
arxiv情報
著者 | Junya Ono,Hiromi Wakaki |
発行日 | 2025-01-02 07:44:48+00:00 |
arxivサイト | arxiv_id(pdf) |