要約
会話は人間のコミュニケーションの最も自然な形式であり、それぞれの発話がさまざまな感情に及ぶ可能性があります。
テキスト内の感情の検出に関しては重要な研究が行われてきましたが、特にマルチモーダルな設定では、その感情の原因を見つけることに関しては比較的わずかな研究が行われてきました。
SemEval 2024 では、会話におけるマルチモーダル感情原因分析のタスクが導入されています。これは、複数のモダリティ (テキスト、音声、視覚モダリティ) が関与する会話における個々の発話に反映される感情を、その感情の原因となった対応する発話とともに抽出することを目的としています。
この論文では、発話のラベリングとシーケンスのラベリング問題としてこのタスクに取り組むモデルを提案し、さまざまなエンコーダを使用したベースライン、会話のコンテキスト情報を追加するための BiLSTM の使用、そして最後に CRF の追加を含むこれらのモデルの比較研究を実行します。
レイヤーを使用して、隣接する発話間の相互依存関係をより効果的にモデル化しようとします。
このタスクの公式リーダーボードでは、私たちのアーキテクチャは 8 位にランクされ、リーダーボードで F1 スコア 0.1759 を達成しました。
要約(オリジナル)
Conversation is the most natural form of human communication, where each utterance can range over a variety of possible emotions. While significant work has been done towards the detection of emotions in text, relatively little work has been done towards finding the cause of the said emotions, especially in multimodal settings. SemEval 2024 introduces the task of Multimodal Emotion Cause Analysis in Conversations, which aims to extract emotions reflected in individual utterances in a conversation involving multiple modalities (textual, audio, and visual modalities) along with the corresponding utterances that were the cause for the emotion. In this paper, we propose models that tackle this task as an utterance labeling and a sequence labeling problem and perform a comparative study of these models, involving baselines using different encoders, using BiLSTM for adding contextual information of the conversation, and finally adding a CRF layer to try to model the inter-dependencies between adjacent utterances more effectively. In the official leaderboard for the task, our architecture was ranked 8th, achieving an F1-score of 0.1759 on the leaderboard.
arxiv情報
著者 | Suyash Vardhan Mathur,Akshett Rai Jindal,Hardik Mittal,Manish Shrivastava |
発行日 | 2024-04-02 16:32:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google