Understanding Depth and Height Perception in Large Visual-Language Models

要約

幾何学的理解 – 深さと身長の知覚を含む – は、知性の基本であり、環境をナビゲートするために重要です。
大規模なビジョン言語モデル(VLM)の印象的な能力にもかかわらず、視覚的知覚における実用的なアプリケーションに必要な幾何学的理解をどれだけ持っているかは不明のままです。
この作業では、これらのモデルの幾何学的理解を評価することに焦点を当て、特に画像内のオブジェクトの深さと高さを知覚する能力をターゲットにしています。
これに対処するために、これらの側面を厳密に評価するために、2Dおよび3Dシナリオを含む一連のベンチマークデータセットであるGeomerを紹介します。
18の最先端のVLMをベンチマークすることにより、形状やサイズなどの基本的な幾何学的特性を知覚することに優れているが、深さと身長の知覚に一貫して苦労していることがわかりました。
私たちの分析は、これらの課題が、深さと高さの推論能力と固有のバイアスの欠点に起因することを明らかにしています。
この研究の目的は、現実世界のアプリケーションに必要な重要なコンポーネントとして深さと身長の知覚を強調することにより、幾何学的理解を強化したVLMを開発する方法を開くことを目的としています。

要約(オリジナル)

Geometric understanding – including depth and height perception – is fundamental to intelligence and crucial for navigating our environment. Despite the impressive capabilities of large Vision Language Models (VLMs), it remains unclear how well they possess the geometric understanding required for practical applications in visual perception. In this work, we focus on evaluating the geometric understanding of these models, specifically targeting their ability to perceive the depth and height of objects in an image. To address this, we introduce GeoMeter, a suite of benchmark datasets – encompassing 2D and 3D scenarios – to rigorously evaluate these aspects. By benchmarking 18 state-of-the-art VLMs, we found that although they excel in perceiving basic geometric properties like shape and size, they consistently struggle with depth and height perception. Our analysis reveal that these challenges stem from shortcomings in their depth and height reasoning capabilities and inherent biases. This study aims to pave the way for developing VLMs with enhanced geometric understanding by emphasizing depth and height perception as critical components necessary for real-world applications.

arxiv情報

著者 Shehreen Azad,Yash Jain,Rishit Garg,Yogesh S Rawat,Vibhav Vineet
発行日 2025-04-25 15:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク