Struct2D: A Perception-Guided Framework for Spatial Reasoning in Large Multimodal Models

要約

大規模マルチモーダルモデル(LMM)における空間推論を解き明かすことは、3D環境とのインテリジェントなインタラクションを可能にするために極めて重要である。これまでの取り組みでは、明示的な3D入力や特殊なモデルアーキテクチャに依存することが多かったが、我々は、知覚に由来する構造化された2D表現のみを用いて、LMMが3D空間について推論できるのか?Struct2Dは、鳥瞰(BEV)画像と物体マークおよび物体中心のメタデータを組み合わせた知覚誘導型プロンプティングフレームワークである。Struct2Dを用いて、クローズドソースのLMM(GPT-o3など)の徹底的なゼロショット解析を行い、構造化された2次元入力が与えられた場合に、驚くほど強力な空間推論能力を示し、相対的な方向推定や経路計画などのタスクを効果的に処理することを発見した。これらの洞察に基づき、我々はStruct2D-Setを構築する。Struct2D-Setは、3D室内シーンから自動的に生成された、8つの空間推論カテゴリにわたる200Kのきめ細かいQAペアを持つ大規模な命令チューニングデータセットである。我々は、Struct2D-Set上でオープンソースのLMM(Qwen2.5VL)をファインチューニングし、3D質問応答、高密度キャプション、オブジェクトグラウンディングを含む複数のベンチマークで競争力のある性能を達成した。我々のアプローチは、構造化された2D入力が、明示的な3D表現を入力として必要とすることなく、LMMにおける知覚と言語推論の橋渡しを効果的に行えることを実証している。今後の研究を支援するため、コードとデータセットの両方を公開する予定である。

要約(オリジナル)

Unlocking spatial reasoning in Large Multimodal Models (LMMs) is crucial for enabling intelligent interaction with 3D environments. While prior efforts often rely on explicit 3D inputs or specialized model architectures, we ask: can LMMs reason about 3D space using only structured 2D representations derived from perception? We introduce Struct2D, a perception-guided prompting framework that combines bird’s-eye-view (BEV) images with object marks and object-centric metadata, optionally incorporating egocentric keyframes when needed. Using Struct2D, we conduct an in-depth zero-shot analysis of closed-source LMMs (e.g., GPT-o3) and find that they exhibit surprisingly strong spatial reasoning abilities when provided with structured 2D inputs, effectively handling tasks such as relative direction estimation and route planning. Building on these insights, we construct Struct2D-Set, a large-scale instruction tuning dataset with 200K fine-grained QA pairs across eight spatial reasoning categories, generated automatically from 3D indoor scenes. We fine-tune an open-source LMM (Qwen2.5VL) on Struct2D-Set, achieving competitive performance on multiple benchmarks, including 3D question answering, dense captioning, and object grounding. Our approach demonstrates that structured 2D inputs can effectively bridge perception and language reasoning in LMMs-without requiring explicit 3D representations as input. We will release both our code and dataset to support future research.

arxiv情報

著者 Fangrui Zhu,Hanhui Wang,Yiming Xie,Jing Gu,Tianye Ding,Jianwei Yang,Huaizu Jiang
発行日 2025-06-04 17:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク