要約
視覚言語モデル (VLM) は、複雑な視覚言語推論を評価する最近の視覚質問応答 (VQA) ベンチマークにおいて大幅な進歩を遂げました。
しかし、これらのモデルは本当に効果があるのでしょうか?
この研究では、VLM が依然として自然の画像や人間が簡単に答えられる質問 (自然敵対的サンプルと呼ぶ) に苦戦していることを示します。
また、CLIP や ChatGPT などの既製のモデルを使用して、自然な画像テキスト コーパスからこれらの VQA サンプルを生成するのが驚くほど簡単であることもわかりました。
私たちは、人間が検証した 10,000 個の VQA サンプルを使用して VLM を確実に評価するための、新しいベンチマークである NaturalBench を収集する半自動アプローチを提案します。
重要なのは、各質問を異なる回答をもたらす 2 つの画像と組み合わせることで、$\textbf{ビジョン中心}$ 設計を採用し、画像を使用せずに盲目的な解決策が回答されるのを防ぐことです。
このため、NaturalBench は、常識的な事前分布で解決できる以前のベンチマークよりも困難になります。
NaturalBench で 53 の最先端の VLM を評価したところ、LLaVA-OneVision、Cambrian-1、Llama3.2-Vision、Molmo、Qwen2-VL、さらには GPT-4o などのモデルが 50% ~ 70% 遅れていることがわかりました。
人間のパフォーマンス (90% 以上)。
NaturalBench が難しい理由を 2 つの角度から分析します。 (1) 構成性: NaturalBench を解決するには、属性バインディング、オブジェクトの関係、ロジックやカウントなどの高度な推論の理解など、多様な視覚言語スキルが必要です。
この目的を達成するために、サンプルごとに 1 つのタグを使用する以前の研究とは異なり、きめ細かい評価を行うために、各 NaturalBench サンプルに 1 ~ 8 個のスキル タグを付けます。
(2) バイアス: モデルは画像に関係なく同じ答えを選択することが多いため、NaturalBench は VLM の深刻なバイアスを明らかにします。
最後に、ベンチマーク キュレーション手法を、長いキャプション (100 単語以上) や中国語やヒンディー語などの英語以外の言語を含む多様なデータ ソースに適用し、VLM の動的な評価の可能性を強調します。
要約(オリジナル)
Vision-language models (VLMs) have made significant progress in recent visual-question-answering (VQA) benchmarks that evaluate complex visio-linguistic reasoning. However, are these models truly effective? In this work, we show that VLMs still struggle with natural images and questions that humans can easily answer, which we term natural adversarial samples. We also find it surprisingly easy to generate these VQA samples from natural image-text corpora using off-the-shelf models like CLIP and ChatGPT. We propose a semi-automated approach to collect a new benchmark, NaturalBench, for reliably evaluating VLMs with 10,000 human-verified VQA samples. Crucially, we adopt a $\textbf{vision-centric}$ design by pairing each question with two images that yield different answers, preventing blind solutions from answering without using the images. This makes NaturalBench more challenging than previous benchmarks that can be solved with commonsense priors. We evaluate 53 state-of-the-art VLMs on NaturalBench, showing that models like LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, and even GPT-4o lag 50%-70% behind human performance (over 90%). We analyze why NaturalBench is hard from two angles: (1) Compositionality: Solving NaturalBench requires diverse visio-linguistic skills, including understanding attribute bindings, object relationships, and advanced reasoning like logic and counting. To this end, unlike prior work that uses a single tag per sample, we tag each NaturalBench sample with 1 to 8 skill tags for fine-grained evaluation. (2) Biases: NaturalBench exposes severe biases in VLMs, as models often choose the same answer regardless of the image. Lastly, we apply our benchmark curation method to diverse data sources, including long captions (over 100 words) and non-English languages like Chinese and Hindi, highlighting its potential for dynamic evaluations of VLMs.
arxiv情報
著者 | Baiqi Li,Zhiqiu Lin,Wenxuan Peng,Jean de Dieu Nyandwi,Daniel Jiang,Zixian Ma,Simran Khanuja,Ranjay Krishna,Graham Neubig,Deva Ramanan |
発行日 | 2024-10-22 16:07:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google