TopViewRS: Vision-Language Models as Top-View Spatial Reasoners

要約

トップビューの視点は、人間がさまざまなタイプの地図を読み、推論する典型的な方法を示しており、人間だけでなく、大規模なビジョンに支えられているような「人間以外の」エージェントの位置特定とナビゲーションにも不可欠です。
言語モデル (VLM)。
それにもかかわらず、最新の VLM の空間推論機能はまだ証明されておらず、十分に研究されていません。
したがって、この研究では、上面図から空間関係を理解し​​推論する彼らの能力を研究します。
上面図に重点を置くことで、空間推論のさまざまな粒度での制御された評価も可能になります。
私たちは、さまざまな能力(たとえば、特定の物体を認識することと、それらの相対的な位置を理解すること)を明確に解きほぐします。
TopViewRS (Top-View Reasoning in Space) データセットを紹介します。このデータセットは、視覚的な入力として現実的または意味論的なトップビュー マップを備えた 11,384 個の多肢選択式の質問で構成されています。
次に、それを使用して、複雑さの異なる 4 つの知覚および推論タスクにわたる VLM を研究および評価します。
10 個の代表的なオープンソースおよびクローズドソース VLM を評価すると、人間の平均的なパフォーマンスと比較して 50% 以上の差があり、場合によってはランダムなベースラインよりも低いことが明らかになりました。
追加の実験では、思考連鎖推論によりモデルの機能を平均 5.82% 向上させることができることが示されていますが、VLM の全体的なパフォーマンスは依然として制限されています。
私たちの発見は、トップビューの空間推論におけるモデル機能の強化の重要な必要性を強調し、現実世界のマルチモーダルタスクにおける人間レベルの VLM の習熟に向けたさらなる研究の基礎を築きました。

要約(オリジナル)

Top-view perspective denotes a typical way in which humans read and reason over different types of maps, and it is vital for localization and navigation of humans as well as of `non-human’ agents, such as the ones backed by large Vision-Language Models (VLMs). Nonetheless, spatial reasoning capabilities of modern VLMs remain unattested and underexplored. In this work, we thus study their capability to understand and reason over spatial relations from the top view. The focus on top view also enables controlled evaluations at different granularity of spatial reasoning; we clearly disentangle different abilities (e.g., recognizing particular objects versus understanding their relative positions). We introduce the TopViewRS (Top-View Reasoning in Space) dataset, consisting of 11,384 multiple-choice questions with either realistic or semantic top-view map as visual input. We then use it to study and evaluate VLMs across 4 perception and reasoning tasks with different levels of complexity. Evaluation of 10 representative open- and closed-source VLMs reveals the gap of more than 50% compared to average human performance, and it is even lower than the random baseline in some cases. Although additional experiments show that Chain-of-Thought reasoning can boost model capabilities by 5.82% on average, the overall performance of VLMs remains limited. Our findings underscore the critical need for enhanced model capability in top-view spatial reasoning and set a foundation for further research towards human-level proficiency of VLMs in real-world multimodal tasks.

arxiv情報

著者 Chengzu Li,Caiqi Zhang,Han Zhou,Nigel Collier,Anna Korhonen,Ivan Vulić
発行日 2024-06-04 17:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク