Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning

要約

ビジョン言語モデル (VLM) は、幅広い下流タスクにわたって優れたパフォーマンスを実証しています。
しかし、ナビゲーションや物理的環境との相互作用を伴うタスクにおいて重要な役割を果たしているにもかかわらず、彼らの空間推論の熟練度は依然として限られています。
具体的には、これらのタスクにおける空間推論の多くは 2 次元 (2D) 環境で行われ、私たちの評価では、最先端の VLM が、単純な経路探索タスクを含む複合空間推論問題に対して、ありえない不正確な応答を頻繁に生成することが明らかになりました。
人間は一目見て簡単に解決できます。
これに対処するために、基本的な空間機能に基づいてモデルをトレーニングすることで、VLM 内の 2D 空間推論を強化する効果的なアプローチを検討します。
まず、2D 空間推論の主要なコンポーネントである方向理解、距離推定、位置特定を解きほぐすことから始めます。
私たちの中心的な仮説は、これらの基本的な空間機能を習得することで、高度な空間理解と組み合わせの問題解決を必要とする複合空間タスクにおけるモデルのパフォーマンスを大幅に向上できるということです。
この仮説を調査するために、合成データ生成とターゲットを絞った監視によってこれら 3 つの基本的な空間機能に基づいて VLM を微調整し、各機能の命令データセットを形成するフレームワークである Sparkle を導入します。
私たちの実験では、Sparkle で微調整された VLM が、基本的なタスク自体だけでなく、複合タスクや分散外の空間推論タスクに一般化した場合でも、大幅なパフォーマンス向上を達成することを実証しています (たとえば、最短タスクでは 13.5% から 40.0% に向上)。
パスの問題)。
これらの発見は、複合空間問題解決を強化する上で基本的な空間能力を習得することの有効性を強調し、VLM の空間推論能力を向上させるための洞察を提供します。

要約(オリジナル)

Vision language models (VLMs) have demonstrated impressive performance across a wide range of downstream tasks. However, their proficiency in spatial reasoning remains limited, despite its crucial role in tasks involving navigation and interaction with physical environments. Specifically, much of the spatial reasoning in these tasks occurs in two-dimensional (2D) environments, and our evaluation reveals that state-of-the-art VLMs frequently generate implausible and incorrect responses to composite spatial reasoning problems, including simple pathfinding tasks that humans can solve effortlessly at a glance. To address this, we explore an effective approach to enhance 2D spatial reasoning within VLMs by training the model on basic spatial capabilities. We begin by disentangling the key components of 2D spatial reasoning: direction comprehension, distance estimation, and localization. Our central hypothesis is that mastering these basic spatial capabilities can significantly enhance a model’s performance on composite spatial tasks requiring advanced spatial understanding and combinatorial problem-solving. To investigate this hypothesis, we introduce Sparkle, a framework that fine-tunes VLMs on these three basic spatial capabilities by synthetic data generation and targeted supervision to form an instruction dataset for each capability. Our experiments demonstrate that VLMs fine-tuned with Sparkle achieve significant performance gains, not only in the basic tasks themselves but also in generalizing to composite and out-of-distribution spatial reasoning tasks (e.g., improving from 13.5% to 40.0% on the shortest path problem). These findings underscore the effectiveness of mastering basic spatial capabilities in enhancing composite spatial problem-solving, offering insights for improving VLMs’ spatial reasoning capabilities.

arxiv情報

著者 Yihong Tang,Ao Qu,Zhaokai Wang,Dingyi Zhuang,Zhaofeng Wu,Wei Ma,Shenhao Wang,Yunhan Zheng,Zhan Zhao,Jinhua Zhao
発行日 2024-10-21 16:26:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク