Revisiting the Role of Language Priors in Vision-Language Models

要約

視覚言語モデル (VLM) が影響力を持つ理由の 1 つは、微調整を行わずにさまざまな視覚理解タスクにゼロショットで適用できるためです。
私たちは、画像を与えられて次の単語を生成するために訓練された $\textit{生成 VLM}$ を研究します。
私たちは、8 つの一般的なビジョン言語ベンチマークにわたる画像テキスト検索の例示的なタスクにおけるゼロショット パフォーマンスを調査します。
私たちの最初の観察は、画像を与えられた特定のテキスト文字列を生成する一致スコアを計算するだけで、それらを識別タスク (画像とテキストの検索など) に再利用できるということです。
この確率スコアを $\textit{Visual Generative Pre-Training Score}$ (VisualGPTScore) と呼びます。
VisualGPTScore は、一部の検索ベンチマークではほぼ完璧な精度を実現しますが、他のベンチマークでは精度が低くなります。
私たちはこの動作を確率論的なレンズを通して分析し、一部のベンチマークが、敵対的ではあるがありそうもないテキスト キャプションを作成することによって、不自然な言語分布を誤って捕捉していることを指摘しました。
実際、画像証拠を無視した「ブラインド」言語モデルであっても、場合によってはすべての従来技術を上回るパフォーマンスを発揮できることを実証しました。これは、何年も前に視覚的質問応答 (VQA) コミュニティが直面した同様の課題を思い出させます。
モデルを再トレーニングしたり微調整したりすることなく、テスト時に生成 VLM の言語バイアスの量を制御する確率的な後処理スキームを導出します。
VisualGPTScore は、適切にバイアスがかけられている場合、視覚言語理解のための強力なゼロショット ベースラインとなり、多くの場合、最先端の精度を生み出すことを示します。

要約(オリジナル)

Vision-language models (VLMs) are impactful in part because they can be applied to a variety of visual understanding tasks in a zero-shot fashion, without any fine-tuning. We study $\textit{generative VLMs}$ that are trained for next-word generation given an image. We explore their zero-shot performance on the illustrative task of image-text retrieval across 8 popular vision-language benchmarks. Our first observation is that they can be repurposed for discriminative tasks (such as image-text retrieval) by simply computing the match score of generating a particular text string given an image. We call this probabilistic score the $\textit{Visual Generative Pre-Training Score}$ (VisualGPTScore). While the VisualGPTScore produces near-perfect accuracy on some retrieval benchmarks, it yields poor accuracy on others. We analyze this behavior through a probabilistic lens, pointing out that some benchmarks inadvertently capture unnatural language distributions by creating adversarial but unlikely text captions. In fact, we demonstrate that even a ‘blind’ language model that ignores any image evidence can sometimes outperform all prior art, reminiscent of similar challenges faced by the visual-question answering (VQA) community many years ago. We derive a probabilistic post-processing scheme that controls for the amount of linguistic bias in generative VLMs at test time without having to retrain or fine-tune the model. We show that the VisualGPTScore, when appropriately debiased, is a strong zero-shot baseline for vision-language understanding, oftentimes producing state-of-the-art accuracy.

arxiv情報

著者 Zhiqiu Lin,Xinyue Chen,Deepak Pathak,Pengchuan Zhang,Deva Ramanan
発行日 2024-05-15 07:15:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク