要約
マルチモーダル大手言語モデル(MLLM)の最近の進歩により、2Dビジュアルタスクのパフォーマンスが大幅に向上しています。
ただし、空間的知性を改善することは依然として課題です。
既存の3D MLLMは、常に追加の3Dまたは2.5Dデータに依存して空間的認識を組み込み、画像やビデオなどの2D入力のみでシナリオにユーティリティを制限します。
この論文では、純粋に2D観測からの視覚ベースの空間推論のための新しいフレームワークであるSpatial-MLLMを紹介します。
セマンティック理解のために最適化されたクリップベースの視覚エンコーダーに依存する従来のビデオMLLMSとは異なり、私たちの重要な洞察は、フィードフォワードビジュアルジオメトリファンデーションモデルから以前の強力な構造を解き放つことです。
具体的には、デュアルエンコーダーアーキテクチャを提案します。セマンティック機能を抽出するための前処理された2Dビジュアルエンコーダーと、視覚ジオメトリモデルのバックボーンから3D構造機能を抽出するための空間エンコーダが開始されます。
次に、コネクタは両方の機能を統合された視覚トークンに統合して、空間的理解を強化します。
さらに、ビデオシーケンスの空間的に有益なフレームを選択し、トークンの長さが制限されていても、モデルが空間推論に重要なフレームに焦点を当てることを保証する推論時間に、スペース認識フレームサンプリング戦略を提案します。
アーキテクチャの改善を超えて、Spatial-MLLM-120Kデータセットを構築し、監視された微調整とGRPOを使用してモデルをトレーニングします。
さまざまな現実世界のデータセットでの広範な実験は、当社の空間MLLMが幅広い視覚ベースの空間理解と推論タスクで最先端のパフォーマンスを達成することを示しています。
プロジェクトページ:https://diankun-wu.github.io/spatial-mllm/。
要約(オリジナル)
Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced performance on 2D visual tasks. However, improving their spatial intelligence remains a challenge. Existing 3D MLLMs always rely on additional 3D or 2.5D data to incorporate spatial awareness, restricting their utility in scenarios with only 2D inputs, such as images or videos. In this paper, we present Spatial-MLLM, a novel framework for visual-based spatial reasoning from purely 2D observations. Unlike conventional video MLLMs which rely on CLIP-based visual encoders optimized for semantic understanding, our key insight is to unleash the strong structure prior from the feed-forward visual geometry foundation model. Specifically, we propose a dual-encoder architecture: a pretrained 2D visual encoder to extract semantic features, and a spatial encoder-initialized from the backbone of the visual geometry model-to extract 3D structure features. A connector then integrates both features into unified visual tokens for enhanced spatial understanding. Furthermore, we propose a space-aware frame sampling strategy at inference time, which selects the spatially informative frames of a video sequence, ensuring that even under limited token length, the model focuses on frames critical for spatial reasoning. Beyond architecture improvements, we construct the Spatial-MLLM-120k dataset and train the model on it using supervised fine-tuning and GRPO. Extensive experiments on various real-world datasets demonstrate that our spatial-MLLM achieves state-of-the-art performance in a wide range of visual-based spatial understanding and reasoning tasks. Project page: https://diankun-wu.github.io/Spatial-MLLM/.
arxiv情報
著者 | Diankun Wu,Fangfu Liu,Yi-Hsin Hung,Yueqi Duan |
発行日 | 2025-05-29 17:59:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google