SpatialReasoner: Towards Explicit and Generalizable 3D Spatial Reasoning

要約

マルチモーダルモデルの最近の進歩にもかかわらず、3D空間推論は、最先端のオープンソースおよび独自のモデルにとって困難なタスクです。
最近の研究では、データ駆動型のアプローチを調査し、3D関連の視覚的質問データに関する微調整モデルによる空間推論パフォーマンスの強化を実現しています。
ただし、これらの方法は通常、暗黙の方法で空間的推論を実行し、長い考え方の推論でさえ、人間にとって些細な質問に失敗することがよくあります。
この作業では、複数の段階の間で共有された明示的な3D表現(3Dの知覚、計算、および推論で共有された3D空間推論)に対処する新しい大型視覚言語モデル(LVLM)であるSpatialReasonerを紹介します。
明示的な3D表現は、高度な3D空間推論をサポートし、新しい質問タイプの一般化能力を向上させるコヒーレントインターフェイスを提供します。
さらに、SpatialReasonerのマルチステップ推論痕跡の明示的な3D表現を分析することにより、事実上の誤りを研究し、現在のLVLMの重要な欠点を特定します。
結果は、私たちの空間的季節がさまざまな空間推論ベンチマークでパフォーマンスを向上させ、3DSRBenchでジェミニ2.0を9.2%上回るパフォーマンスを達成し、新しい3D空間推論の質問を評価する際によりよく一般化することを示しています。
私たちの研究は、大規模な言語モデルの強力な推論能力を備えた、以前の視覚基盤モデルの3D解析機能を橋渡しし、3D空間的推論の新しい方向性を開きます。

要約(オリジナル)

Despite recent advances on multi-modal models, 3D spatial reasoning remains a challenging task for state-of-the-art open-source and proprietary models. Recent studies explore data-driven approaches and achieve enhanced spatial reasoning performance by fine-tuning models on 3D-related visual question-answering data. However, these methods typically perform spatial reasoning in an implicit manner and often fail on questions that are trivial to humans, even with long chain-of-thought reasoning. In this work, we introduce SpatialReasoner, a novel large vision-language model (LVLM) that addresses 3D spatial reasoning with explicit 3D representations shared between multiple stages–3D perception, computation, and reasoning. Explicit 3D representations provide a coherent interface that supports advanced 3D spatial reasoning and improves the generalization ability to novel question types. Furthermore, by analyzing the explicit 3D representations in multi-step reasoning traces of SpatialReasoner, we study the factual errors and identify key shortcomings of current LVLMs. Results show that our SpatialReasoner achieves improved performance on a variety of spatial reasoning benchmarks, outperforming Gemini 2.0 by 9.2% on 3DSRBench, and generalizes better when evaluating on novel 3D spatial reasoning questions. Our study bridges the 3D parsing capabilities of prior visual foundation models with the powerful reasoning abilities of large language models, opening new directions for 3D spatial reasoning.

arxiv情報

著者 Wufei Ma,Yu-Cheng Chou,Qihao Liu,Xingrui Wang,Celso de Melo,Jianwen Xie,Alan Yuille
発行日 2025-06-10 17:53:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク