要約
言語は、視覚タスクのパフォーマンスを指定および評価するための自然なインターフェイスを提供します。
この可能性を実現するには、ビジョン言語モデル(VLM)が視覚情報と言語情報を正常に統合する必要があります。
私たちの仕事は、VLMを視覚エンコーダーの直接読み取りと比較して、これらのモダリティ全体に統合する能力を理解しています。
一連のビジョン中心のベンチマーク(例:深度推定、対応など)で、VLMは視覚エンコーダーよりも大幅に悪化し、ほぼチャンスのパフォーマンスに低下することがわかります。
VLM全体にわたる一連の分析を通じてこれらの結果を調査します。つまり、1)視力表現の分解、2)タスクプロンプトへの脆性性、および3)タスクの解決における言語モデルの役割。
これらの視覚中心のタスクを実行する際のボトルネックは、この3番目のカテゴリにあることがわかります。
VLMは、モデル全体で簡単にアクセスできる視覚情報を効果的に使用しておらず、LLMに存在する言語の事前に継承します。
私たちの研究は、オープンソースVLMの故障モードの診断に役立ち、VLMS内の視覚的理解の将来の調査に役立つ一連の評価を提示します。
要約(オリジナル)
Language provides a natural interface to specify and evaluate performance on visual tasks. To realize this possibility, vision language models (VLMs) must successfully integrate visual and linguistic information. Our work compares VLMs to a direct readout of their visual encoders to understand their ability to integrate across these modalities. Across a series of vision-centric benchmarks (e.g., depth estimation, correspondence), we find that VLMs perform substantially worse than their visual encoders, dropping to near-chance performance. We investigate these results through a series of analyses across the entire VLM: namely 1) the degradation of vision representations, 2) brittleness to task prompt, and 3) the language model’s role in solving the task. We find that the bottleneck in performing these vision-centric tasks lies in this third category; VLMs are not effectively using visual information easily accessible throughout the entire model, and they inherit the language priors present in the LLM. Our work helps diagnose the failure modes of open-source VLMs, and presents a series of evaluations useful for future investigations into visual understanding within VLMs.
arxiv情報
著者 | Stephanie Fu,Tyler Bonnen,Devin Guillory,Trevor Darrell |
発行日 | 2025-06-09 17:59:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google