Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View

要約

構成的推論能力は通常、人間の知覚を特徴付けるための基本的なスキルとみなされます。
最近の研究では、現在のビジョン言語モデル (VLM) には、そのような機能に関する十分な知識が驚くほど不足していることが示されています。
この目的を達成するために、VLM によってエンコードされた構成表現を徹底的に診断し、この弱点の潜在的な原因を系統的に明らかにすることを提案します。
具体的には、関係や属性など、構成理解のさまざまな側面における VLM の脆弱性を評価するための、新しいゲーム理論的な観点からの評価方法を提案します。
広範な実験結果により、構成推論における VLM の能力の無さを理解するためのいくつかの洞察が実証および検証され、将来の研究に有用で信頼できる指針が提供されます。
成果物は https://vlms-compositionality-game Theory.github.io/ で更新されます。

要約(オリジナル)

Compositional reasoning capabilities are usually considered as fundamental skills to characterize human perception. Recent studies show that current Vision Language Models (VLMs) surprisingly lack sufficient knowledge with respect to such capabilities. To this end, we propose to thoroughly diagnose the composition representations encoded by VLMs, systematically revealing the potential cause for this weakness. Specifically, we propose evaluation methods from a novel game-theoretic view to assess the vulnerability of VLMs on different aspects of compositional understanding, e.g., relations and attributes. Extensive experimental results demonstrate and validate several insights to understand the incapabilities of VLMs on compositional reasoning, which provide useful and reliable guidance for future studies. The deliverables will be updated at https://vlms-compositionality-gametheory.github.io/.

arxiv情報

著者 Jin Wang,Shichao Dong,Yapeng Zhu,Kelu Yao,Weidong Zhao,Chao Li,Ping Luo
発行日 2024-05-27 14:22:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク