要約
ビジョン言語モデル(VLM)は、オブジェクトの識別と記述に優れていますが、オブジェクトの相対的な位置を正確に理解するなどの空間的推論と闘っています。
ヒトビジョンのデュアルパスウェイ(腹側)モデルに触発されたことで、オブジェクト認識能力が強いにもかかわらずVLMSが空間タスクを失敗させる理由を調査します。
私たちの解釈可能性駆動型分析は、重要な根本的な原因を明らかにしています。VLMの視力埋め込みは、主に意味的に「袋の袋」として扱われ、不均衡に大きな埋め込み基準のために微妙でありながら重要な位置的キューを覆い隠します。
広範な診断実験を通じてこの洞察を検証し、トークンの注文または細粒の空間の詳細が削除されたときのパフォーマンスへの影響を最小限に抑えます。
これらの調査結果に導かれて、視力の正規化や中層の空間的に豊富な特徴の抽出を含む、視力の正規化や抽出を含む、単純で解釈可能な介入を提案し、空間的認識を回復します。
当社の合成データと標準ベンチマークの両方の経験的結果は、解釈可能性に基づいた設計の選択の価値を強調し、空間的推論能力の改善を示しています。
私たちの研究は、現在のVLMアーキテクチャの基本的な制限を明らかにするだけでなく、視覚シーンの構造化された知覚を強化するための実用的な洞察も提供します。
要約(オリジナル)
Vision-Language Models (VLMs) excel at identifying and describing objects but struggle with spatial reasoning such as accurately understanding the relative positions of objects. Inspired by the dual-pathway (ventral-dorsal) model of human vision, we investigate why VLMs fail spatial tasks despite strong object recognition capabilities. Our interpretability-driven analysis reveals a critical underlying cause: vision embeddings in VLMs are treated primarily as semantic “bag-of-tokens,’ overshadowing subtle yet crucial positional cues due to their disproportionately large embedding norms. We validate this insight through extensive diagnostic experiments, demonstrating minimal performance impact when token orders or fine-grained spatial details are removed. Guided by these findings, we propose simple, interpretable interventions, including normalizing vision embedding norms and extracting mid-layer spatially rich features, to restore spatial awareness. Empirical results on both our synthetic data and standard benchmarks demonstrate improved spatial reasoning capabilities, highlighting the value of interpretability-informed design choices. Our study not only uncovers fundamental limitations in current VLM architectures but also provides actionable insights for enhancing structured perception of visual scenes.
arxiv情報
著者 | Jianing Qi,Jiawei Liu,Hao Tang,Zhigang Zhu |
発行日 | 2025-03-21 17:51:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google