Understanding Depth and Height Perception in Large Visual-Language Models

要約

奥行きや高さの知覚を含む幾何学的理解は、知能の基本であり、環境をナビゲートするために極めて重要である。大規模な視覚言語モデル(VLM)の素晴らしい能力にもかかわらず、視覚知覚の実用的な応用に必要な幾何学的理解をどの程度持っているかは不明なままである。本研究では、これらのモデルの幾何学的理解、特に画像中の物体の奥行きと高さを認識する能力を評価することに焦点を当てる。これに対処するため、2Dと3Dのシナリオを含むベンチマークデータセット群であるGeoMeterを導入し、これらの側面を厳密に評価する。18の最先端のVLMをベンチマークした結果、形状や大きさといった基本的な幾何学的特性の認識には優れているものの、奥行きや高さの認識には一貫して苦戦していることがわかった。我々の分析により、これらの課題は、奥行きと高さの推論能力の欠点と固有のバイアスに起因することが明らかになった。本研究は、実世界での応用に必要な重要な要素として奥行きと高さの知覚を強調することで、幾何学的理解を強化したVLMの開発に道を開くことを目的としている。

要約(オリジナル)

Geometric understanding – including depth and height perception – is fundamental to intelligence and crucial for navigating our environment. Despite the impressive capabilities of large Vision Language Models (VLMs), it remains unclear how well they possess the geometric understanding required for practical applications in visual perception. In this work, we focus on evaluating the geometric understanding of these models, specifically targeting their ability to perceive the depth and height of objects in an image. To address this, we introduce GeoMeter, a suite of benchmark datasets – encompassing 2D and 3D scenarios – to rigorously evaluate these aspects. By benchmarking 18 state-of-the-art VLMs, we found that although they excel in perceiving basic geometric properties like shape and size, they consistently struggle with depth and height perception. Our analysis reveal that these challenges stem from shortcomings in their depth and height reasoning capabilities and inherent biases. This study aims to pave the way for developing VLMs with enhanced geometric understanding by emphasizing depth and height perception as critical components necessary for real-world applications.

arxiv情報

著者 Shehreen Azad,Yash Jain,Rishit Garg,Yogesh S Rawat,Vibhav Vineet
発行日 2025-04-03 15:06:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク