EmoGist: Efficient In-Context Learning for Visual Emotion Understanding

要約

この論文では、LVLMSを使用して視覚的な感情分類を実行するためのトレーニングフリーのコンテキスト学習方法であるエモジストを紹介します。
私たちのアプローチの重要な直感は、感情ラベルのコンテキスト依存の定義により、画像内で感情が現れる方法が非常に文脈に依存し、微妙であるため、感情のより正確な予測を可能にすることです。
エモギストは、各カテゴリに属する​​例の画像のクラスターを分析することにより、感情ラベルの複数の説明を事前に生成します。
テスト時に、類似性の埋め込みに基づいて説明のバージョンを取得し、分類のために高速VLMに送ります。
実験を通じて、エモギストにより、マルチラベル計測データセットでマイクロF1スコアを最大13ポイント改善し、マルチクラスFIデータセットでマクロF1で最大8ポイント改善できることが示されています。

要約(オリジナル)

In this paper, we introduce EmoGist, a training-free, in-context learning method for performing visual emotion classification with LVLMs. The key intuition of our approach is that context-dependent definition of emotion labels could allow more accurate predictions of emotions, as the ways in which emotions manifest within images are highly context dependent and nuanced. EmoGist pre-generates multiple explanations of emotion labels, by analyzing the clusters of example images belonging to each category. At test time, we retrieve a version of explanation based on embedding similarity, and feed it to a fast VLM for classification. Through our experiments, we show that EmoGist allows up to 13 points improvement in micro F1 scores with the multi-label Memotion dataset, and up to 8 points in macro F1 in the multi-class FI dataset.

arxiv情報

著者 Ronald Seoh,Dan Goldwasser
発行日 2025-05-20 17:47:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク