Toward Automatic Relevance Judgment using Vision–Language Models for Image–Text Retrieval Evaluation

要約

Vision–Language Models(VLM)は、様々なアプリケーションで成功を収めているが、関連性判断を支援する可能性はまだ不確かである。本論文では、CLIP、LLaVA、GPT-4Vを含むVLMの関連性推定能力を、ゼロショット方式でマルチメディアコンテンツを作成するために調整された大規模な୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛検索タスクの中で評価する。予備実験により、以下のことが明らかになった:(1) LLaVAとGPT-4Vは、オープンソースとクローズドソースの視覚命令チューニングされた大規模言語モデル(LLMs)を包含し、人間の関連性判断と比較した場合、CLIPScoreメトリックを上回る顕著なKendallの$tauの$sim 0.4$を達成した。(2)CLIPScoreは強く好まれるが、LLMはCLIPベースの検索システムに偏りにくい。(3) GPT-4Vのスコア分布は他のモデルよりも人間の判断に近く、コーエンの$kappa$値は約0.08であり、CLIPScoreの約-0.096を上回る。これらの結果は、LLMを搭載したVLMが関連性判断を強化する可能性を強調するものである。

要約(オリジナル)

Vision–Language Models (VLMs) have demonstrated success across diverse applications, yet their potential to assist in relevance judgments remains uncertain. This paper assesses the relevance estimation capabilities of VLMs, including CLIP, LLaVA, and GPT-4V, within a large-scale \textit{ad hoc} retrieval task tailored for multimedia content creation in a zero-shot fashion. Preliminary experiments reveal the following: (1) Both LLaVA and GPT-4V, encompassing open-source and closed-source visual-instruction-tuned Large Language Models (LLMs), achieve notable Kendall’s $\tau \sim 0.4$ when compared to human relevance judgments, surpassing the CLIPScore metric. (2) While CLIPScore is strongly preferred, LLMs are less biased towards CLIP-based retrieval systems. (3) GPT-4V’s score distribution aligns more closely with human judgments than other models, achieving a Cohen’s $\kappa$ value of around 0.08, which outperforms CLIPScore at approximately -0.096. These findings underscore the potential of LLM-powered VLMs in enhancing relevance judgments.

arxiv情報

著者 Jheng-Hong Yang,Jimmy Lin
発行日 2024-08-02 16:15:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.IR, cs.MM パーマリンク