Context-Dependent Embedding Utterance Representations for Emotion Recognition in Conversations



– 会話エージェントが一般的になるにつれ、会話中の感情認識(ERC)はますます重要になっています。
– 有効なコミュニケーションのためには、感情認識が重要であり、効果的で共感的な会話エージェントの開発においても重要な要素です。
– 会話文脈の知識と理解は、対話者の感情を特定するために非常に価値があります。
– 我々は、前回の会話ターンを考慮することによって、会話文脈にアプローチし、会話における感情認識を行います。
– 通常の文脈モデリングのアプローチでは、各発話の文脈独立表現を生成し、その後これらの表現を文脈モデリングします。
– 我々は、事前学習されたトランスフォーマー言語モデルの文脈表現能力を活用し、文脈依存埋め込み表現を提案します。
– 我々のアプローチでは、分類する発話に追加された会話文脈をRoBERTaエンコーダに入力し、シンプルな分類モジュールを追加することで、埋め込みが文脈の効率的な表現であるため、埋め込みを取得した後に文脈を扱う必要がなくなります。
– 導入する会話ターン数がモデルの性能にどのように影響するかも調査します。
– 我々のアプローチの効果は、広く使用されているオープンドメインのDailyDialogデータセットとタスク指向のEmoWOZデータセットで検証され、より複雑な分類モジュールを使用したRoBERTaも使用したERCモデルを上回る、state-of-the-art の結果が得られます。
– これは、より複雑な分類モジュールを持つ文脈独立の発話表現アプローチよりも、シンプルな分類モデルを持つ文脈依存埋め込み発話表現アプローチがより効果的であることを示しています。


Emotion Recognition in Conversations (ERC) has been gaining increasing importance as conversational agents become more and more common. Recognizing emotions is key for effective communication, being a crucial component in the development of effective and empathetic conversational agents. Knowledge and understanding of the conversational context are extremely valuable for identifying the emotions of the interlocutor. We thus approach Emotion Recognition in Conversations leveraging the conversational context, i.e., taking into attention previous conversational turns. The usual approach to model the conversational context has been to produce context-independent representations of each utterance and subsequently perform contextual modeling of these. Here we propose context-dependent embedding representations of each utterance by leveraging the contextual representational power of pre-trained transformer language models. In our approach, we feed the conversational context appended to the utterance to be classified as input to the RoBERTa encoder, to which we append a simple classification module, thus discarding the need to deal with context after obtaining the embeddings since these constitute already an efficient representation of such context. We also investigate how the number of introduced conversational turns influences our model performance. The effectiveness of our approach is validated on the widely used open-domain DailyDialog dataset and on the task-oriented EmoWOZ dataset, for which we attain state-of-the-art results, surpassing ERC models also resorting to RoBERTa but with more complex classification modules, indicating that our context-dependent embedding utterance representation approach with a simple classification model can be more effective than context-independent utterance representation approaches with more complex classification modules.


著者 Patrícia Pereira,Helena Moniz,Isabel Dias,Joao Paulo Carvalho
発行日 2023-04-17 12:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク