JMI at SemEval 2024 Task 3: Two-step approach for multimodal ECAC using in-context learning with GPT and instruction-tuned Llama models

要約

この論文では、SemEval-2024 タスク 3:「会話におけるマルチモーダル感情原因分析の競争」のためのシステム開発について説明します。
人間の会話の感情を効果的に捉えるには、テキスト、音声、ビデオなどの複数のモダリティを統合する必要があります。
ただし、これらの多様なモダリティの複雑さにより、効率的なマルチモーダル感情原因分析 (ECA) システムの開発には課題が生じています。
私たちが提案するアプローチは、2 段階のフレームワークによってこれらの課題に対処します。
実装では 2 つの異なるアプローチを採用します。
アプローチ 1 では、感情と原因の予測に 2 つの別個の Llama 2 モデルを使用した命令チューニングを採用します。
アプローチ 2 では、会話レベルのビデオ説明に GPT-4V を使用し、GPT 3.5 を使用した注釈付き会話によるコンテキスト内学習を採用します。
当社のシステムはランク 4 を獲得し、システム アブレーション実験により、当社が提案したソリューションが大幅なパフォーマンス向上を達成することが実証されました。
すべての実験コードは Github で入手できます。

要約(オリジナル)

This paper presents our system development for SemEval-2024 Task 3: ‘The Competition of Multimodal Emotion Cause Analysis in Conversations’. Effectively capturing emotions in human conversations requires integrating multiple modalities such as text, audio, and video. However, the complexities of these diverse modalities pose challenges for developing an efficient multimodal emotion cause analysis (ECA) system. Our proposed approach addresses these challenges by a two-step framework. We adopt two different approaches in our implementation. In Approach 1, we employ instruction-tuning with two separate Llama 2 models for emotion and cause prediction. In Approach 2, we use GPT-4V for conversation-level video description and employ in-context learning with annotated conversation using GPT 3.5. Our system wins rank 4, and system ablation experiments demonstrate that our proposed solutions achieve significant performance gains. All the experimental codes are available on Github.

arxiv情報

著者 Arefa,Mohammed Abbas Ansari,Chandni Saxena,Tanvir Ahmad
発行日 2024-04-02 14:52:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク