要約
この論文では、LVLMSを使用して視覚的な感情分類を実行するためのトレーニングフリーのコンテキスト学習方法であるエモジストを紹介します。
私たちのアプローチの重要な直感は、感情ラベルのコンテキスト依存の定義により、画像内で感情が現れる方法が非常に文脈に依存し、微妙であるため、感情のより正確な予測を可能にすることです。
エモギストは、各カテゴリに属する例の画像のクラスターを分析することにより、感情ラベルの複数の説明を事前に生成します。
テスト時に、類似性の埋め込みに基づいて説明のバージョンを取得し、分類のために高速VLMに送ります。
実験を通じて、エモギストにより、マルチラベル計測データセットでマイクロF1スコアを最大13ポイント改善し、マルチクラスFIデータセットでマクロF1で最大8ポイント改善できることが示されています。
要約(オリジナル)
In this paper, we introduce EmoGist, a training-free, in-context learning method for performing visual emotion classification with LVLMs. The key intuition of our approach is that context-dependent definition of emotion labels could allow more accurate predictions of emotions, as the ways in which emotions manifest within images are highly context dependent and nuanced. EmoGist pre-generates multiple explanations of emotion labels, by analyzing the clusters of example images belonging to each category. At test time, we retrieve a version of explanation based on embedding similarity, and feed it to a fast VLM for classification. Through our experiments, we show that EmoGist allows up to 13 points improvement in micro F1 scores with the multi-label Memotion dataset, and up to 8 points in macro F1 in the multi-class FI dataset.
arxiv情報
著者 | Ronald Seoh,Dan Goldwasser |
発行日 | 2025-05-20 17:47:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google