On the use of Vision-Language models for Visual Sentiment Analysis: a study on CLIP

要約

この研究では、CLIP 埋め込みスペースを利用して視覚感情分析を実行する方法に関する研究を紹介します。
私たちは、CLIP 埋め込み空間 (CLIP-E と呼ぶ) の上に構築された 2 つのアーキテクチャを実験します。
CLIP-E モデルを WEBEmo (公的に入手可能で手動でラベル付けされた視覚感情分析用の最大のベンチマーク) を使用してトレーニングし、2 セットの実験を実行します。
まず、WEBEmo でテストし、CLIP-E アーキテクチャを最先端 (SOTA) モデルおよび CLIP Zero-Shot と比較します。
次に、クロス データセット評価を実行し、WEBEmo でトレーニングされた CLIP-E アーキテクチャを他の視覚感情分析ベンチマークでテストします。
私たちの結果は、CLIP-E アプローチが WEBEmo のきめ細かい分類で SOTA モデルよりも優れたパフォーマンスを発揮し、トレーニング中に見られなかったデータセットでテストした場合に、より一般化できることを示しています。
興味深いことに、FI データセットでは、CLIP Zero-Shot が SOTA モデルや WEBEmo でトレーニングされた CLIP-E よりも高い精度を生み出すことがわかりました。
これらの結果は、新しいベンチマークを設計して視覚的感情分析を評価する方法や、視覚的感情分析用にカスタマイズされた深層学習モデルの設計を継続するべきか、エンコードされた知識をより効果的に使用することに努力を集中すべきかなど、このホワイトペーパーで説明するいくつかの疑問を引き起こします。
このタスクには CLIP などの大規模なビジョン言語モデルを使用します。

要約(オリジナル)

This work presents a study on how to exploit the CLIP embedding space to perform Visual Sentiment Analysis. We experiment with two architectures built on top of the CLIP embedding space, which we denote by CLIP-E. We train the CLIP-E models with WEBEmo, the largest publicly available and manually labeled benchmark for Visual Sentiment Analysis, and perform two sets of experiments. First, we test on WEBEmo and compare the CLIP-E architectures with state-of-the-art (SOTA) models and with CLIP Zero-Shot. Second, we perform cross dataset evaluation, and test the CLIP-E architectures trained with WEBEmo on other Visual Sentiment Analysis benchmarks. Our results show that the CLIP-E approaches outperform SOTA models in WEBEmo fine grained categorization, and they also generalize better when tested on datasets that have not been seen during training. Interestingly, we observed that for the FI dataset, CLIP Zero-Shot produces better accuracies than SOTA models and CLIP-E trained on WEBEmo. These results motivate several questions that we discuss in this paper, such as how we should design new benchmarks and evaluate Visual Sentiment Analysis, and whether we should keep designing tailored Deep Learning models for Visual Sentiment Analysis or focus our efforts on better using the knowledge encoded in large vision-language models such as CLIP for this task.

arxiv情報

著者 Cristina Bustos,Carles Civit,Brian Du,Albert Sole-Ribalta,Agata Lapedriza
発行日 2023-10-18 15:50:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク