要約
ビジョン言語モデル (VLM) は、幅広い下流タスクにわたって優れたパフォーマンスを実証しています。
しかし、ナビゲーションや物理的環境との相互作用を伴うタスクにおいて重要な役割を果たしているにもかかわらず、彼らの空間推論の熟練度は依然として限られています。
具体的には、これらのタスクのほとんどは 2 次元 (2D) 環境の中核となる空間推論機能に依存しており、私たちの評価では、最先端の VLM が、単純な経路探索を含む複合空間推論問題に対して、信じがたい不正確な応答を頻繁に生成することが明らかになりました。
人間が一目見て簡単に解決できるタスク。
これに対処するために、基本的な空間機能のみに基づいてモデルをトレーニングすることで、VLM 内の 2D 空間推論を強化する効果的なアプローチを検討します。
まず、2D 空間推論の主要なコンポーネントである方向理解、距離推定、位置特定を解きほぐすことから始めます。
私たちの中心的な仮説は、これらの基本的な空間機能を習得すると、高度な空間理解と組み合わせによる問題解決を必要とする複合空間タスクにおけるモデルのパフォーマンスを大幅に向上させ、視覚空間タスクの全般的な改善が可能になるというものです。
この仮説を調査するために、合成データ生成と対象を絞った監視によってこれら 3 つの基本的な空間機能に基づいて VLM を微調整し、各機能の命令データセットを形成するフレームワークである Sparkle を導入します。
私たちの実験では、Sparkle で微調整された VLM が、基本的なタスク自体だけでなく、複合タスクや分散外の空間推論タスクにも一般化して、大幅なパフォーマンス向上を達成できることを示しています。
これらの発見は、複合空間問題解決を強化する上で基本的な空間能力を習得することの有効性を強調し、VLM の空間推論能力を向上させる体系的な戦略への洞察を提供します。
要約(オリジナル)
Vision language models (VLMs) have demonstrated impressive performance across a wide range of downstream tasks. However, their proficiency in spatial reasoning remains limited, despite its crucial role in tasks involving navigation and interaction with physical environments. Specifically, most of these tasks rely on the core spatial reasoning capabilities in two-dimensional (2D) environments, and our evaluation reveals that state-of-the-art VLMs frequently generate implausible and incorrect responses to composite spatial reasoning problems, including simple pathfinding tasks that humans can solve effortlessly at a glance. To address this, we explore an effective approach to enhance 2D spatial reasoning within VLMs by training the model solely on basic spatial capabilities. We begin by disentangling the key components of 2D spatial reasoning: direction comprehension, distance estimation, and localization. Our central hypothesis is that mastering these basic spatial capabilities can significantly enhance a model’s performance on composite spatial tasks requiring advanced spatial understanding and combinatorial problem-solving, with generalized improvements in visual-spatial tasks. To investigate this hypothesis, we introduce Sparkle, a framework that fine-tunes VLMs on these three basic spatial capabilities by synthetic data generation and targeted supervision to form an instruction dataset for each capability. Our experiments demonstrate that VLMs fine-tuned with Sparkle achieve significant performance gains, not only in the basic tasks themselves but also in generalizing to composite and out-of-distribution spatial reasoning tasks. These findings underscore the effectiveness of mastering basic spatial capabilities in enhancing composite spatial problem-solving, offering insights into systematic strategies for improving VLMs’ spatial reasoning capabilities.
arxiv情報
著者 | Yihong Tang,Ao Qu,Zhaokai Wang,Dingyi Zhuang,Zhaofeng Wu,Wei Ma,Shenhao Wang,Yunhan Zheng,Zhan Zhao,Jinhua Zhao |
発行日 | 2024-11-21 18:05:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google