SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation

要約

現在のビジョン言語モデルは、基本的な空間の手がかりと単純な方向(例:左、右、正面、背面)を把握することができますが、人間のような理解と現実世界のアプリケーションに必要な多次元空間的推論と闘っています。
このギャップに対処するために、新しい人間が解決した新しいデータセットによってサポートされる階層的評価フレームワークである球体(空間認識と推論の階層的評価)を開発します。
球体は、基本的なスキルからマルチスキルの統合、空間、視覚、および論理的理解を組み合わせた高レベルの推論に至るまで、複雑さのレベルの増加にわたってモデルを体系的に調査します。
最先端のモデルのベンチマーク評価は、特に距離と近接性に関する推論において、重要な欠陥を明らかにし、エゴセントリックとアロセントリックの両方の視点を理解し、物理的な文脈で空間論理を適用します。
これらの発見は、既存のモデルの重要なブラインドスポットを明らかにし、より高度な空間推論技術の必要性を強調し、人間の空間認知とより密接に整合する視覚モデルの開発を促進します。
Sphere Benchmarkはhttps://github.com/zwenyu/sphere-vlmで入手できます。

要約(オリジナル)

Current vision-language models may grasp basic spatial cues and simple directions (e.g. left, right, front, back), but struggle with the multi-dimensional spatial reasoning necessary for human-like understanding and real-world applications. To address this gap, we develop SPHERE (Spatial Perception and Hierarchical Evaluation of REasoning), a hierarchical evaluation framework supported by a new human-annotated dataset. SPHERE systematically probes models across increasing levels of complexity, from fundamental skills to multi-skill integration and high-level reasoning that combines spatial, visual, and logical understanding. Benchmark evaluation of state-of-the-art models reveals significant deficiencies, especially in reasoning about distance and proximity, understanding both egocentric and allocentric perspectives, and applying spatial logic in physical contexts. These findings expose critical blind spots in existing models and underscore the need for more advanced spatial reasoning techniques, driving the development of vision-language models that align more closely with human spatial cognition. The SPHERE benchmark is available at https://github.com/zwenyu/SPHERE-VLM.

arxiv情報

著者 Wenyu Zhang,Wei En Ng,Lixin Ma,Yuwen Wang,Jungqi Zhao,Allison Koenecke,Boyang Li,Lu Wang
発行日 2025-02-28 15:14:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク