要約
本レポートでは、WECIA Emotion Prediction Competition (EPC) において私たちが検討・提案した、コメント付きの芸術作品から人の感情を予測する手法について詳しく説明します。
このコンテストのデータセットは ArtELingo で、言語や文化を超えた多様性への取り組みを奨励するように設計されています。
このデータセットには、モードの不均衡の問題と言語文化の違いの問題という 2 つの主な課題があります。
この問題に対処するために、感情文化固有プロンプトを使用したシングルマルチモーダル (ECSP) と呼ばれる、シンプルかつ効果的なアプローチを提案します。これは、単一モーダル メッセージを使用してマルチモーダル モデルと適切に設計されたプロンプトのパフォーマンスを向上させることに焦点を当てています。
文化の違いの問題を減らすために。
明確にするために、私たちのアプローチには 2 つの主要なブロックが含まれています: (1) XLM-R\cite{conneau2019unsupervised} ベースの単峰性モデルと X$^2$-VLM\cite{zeng2022x} ベースの多峰性モデル (2) 感情文化固有のプロンプト。
私たちのアプローチは最終テストで 0.627 のスコアで 1 位になりました。
要約(オリジナル)
This report provide a detailed description of the method that we explored and proposed in the WECIA Emotion Prediction Competition (EPC), which predicts a person’s emotion through an artistic work with a comment. The dataset of this competition is ArtELingo, designed to encourage work on diversity across languages and cultures. The dataset has two main challenges, namely modal imbalance problem and language-cultural differences problem. In order to address this issue, we propose a simple yet effective approach called single-multi modal with Emotion-Cultural specific prompt(ECSP), which focuses on using the single modal message to enhance the performance of multimodal models and a well-designed prompt to reduce cultural differences problem. To clarify, our approach contains two main blocks: (1)XLM-R\cite{conneau2019unsupervised} based unimodal model and X$^2$-VLM\cite{zeng2022x} based multimodal model (2) Emotion-Cultural specific prompt. Our approach ranked first in the final test with a score of 0.627.
arxiv情報
著者 | Shengdong Xu,Zhouyang Chi,Yang Yang |
発行日 | 2024-03-31 14:44:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google