要約
会話における感情認識(ERC)は、会話内の各発言に対する人間の感情を識別するタスクであり、人間とコンピュータの相互作用システムにおいて大きな注目を集めている。これまでのERC研究では、主に発話間の関係に由来する話者固有の情報に焦点が当てられており、会話に関する十分な情報が不足している。最近のERC研究では、感情状態を理解するために、事前に訓練された大規模言語モデル(LLM)と話者モデリングを利用しようとしている。これらの方法は有望な結果を得ているが、抽出された話者固有の情報は感情のダイナミクスを示すのに苦労している。本論文では、話者の特徴が重要な役割を果たし、LLMが豊富な世界知識を持っているという事実に動機づけられ、我々は、正確な感情予測のために、対話者の精神状態と行動を含む話者の特徴を探索するようにLLMを刺激する新しいフレームワーク、LaERC-Sを提示する。この知識情報をLLMに付与するために、2段階学習を採用し、複雑な会話シナリオにおいて、モデルが話者の特徴を推論し、話者の感情を追跡するようにする。3つのベンチマークデータセットを用いた広範な実験により、LaERC-Sの優位性が実証され、新たな最先端技術に到達した。
要約(オリジナル)
Emotion recognition in conversation (ERC), the task of discerning human emotions for each utterance within a conversation, has garnered significant attention in human-computer interaction systems. Previous ERC studies focus on speaker-specific information that predominantly stems from relationships among utterances, which lacks sufficient information around conversations. Recent research in ERC has sought to exploit pre-trained large language models (LLMs) with speaker modelling to comprehend emotional states. Although these methods have achieved encouraging results, the extracted speaker-specific information struggles to indicate emotional dynamics. In this paper, motivated by the fact that speaker characteristics play a crucial role and LLMs have rich world knowledge, we present LaERC-S, a novel framework that stimulates LLMs to explore speaker characteristics involving the mental state and behavior of interlocutors, for accurate emotion predictions. To endow LLMs with this knowledge information, we adopt the two-stage learning to make the models reason speaker characteristics and track the emotion of the speaker in complex conversation scenarios. Extensive experiments on three benchmark datasets demonstrate the superiority of LaERC-S, reaching the new state-of-the-art.
arxiv情報
著者 | Yumeng Fu,Junjie Wu,Zhongjie Wang,Meishan Zhang,Lili Shan,Yulin Wu,Bingquan Li |
発行日 | 2025-03-03 09:36:14+00:00 |
arxivサイト | arxiv_id(pdf) |