要約
マルチモーダルの大手言語モデル(MLLM)は視覚的なタスクで急速に進歩していますが、それらの空間的理解は単一の画像に限定されたままであり、マルチフレームの推論を必要とするロボットやその他の現実世界のアプリケーションに適していません。
この論文では、深さの知覚、視覚的対応、および動的知覚を統合することにより、MLLMに堅牢なマルチフレーム空間理解を装備するフレームワークを提案します。
私たちのアプローチの中心は、多様な3Dおよび4Dシーンにまたがる2700万を超えるサンプルの新規で大規模なコレクションであるMultispa Datasetです。
MultiSPAに加えて、均一なメトリックの下でさまざまな空間タスクをテストする包括的なベンチマークを導入します。
結果として得られるモデルであるMulti-SpatialMllmは、ベースラインと独自のシステムに対して大幅な利益を達成し、スケーラブルで一般化可能なマルチフレーム推論を実証します。
さらに、挑戦的なシナリオにおけるマルチタスクの利点と緊急機能の早期兆候を観察し、モデルがロボット工学のマルチフレーム報酬アノテーターとしてどのように機能するかを紹介します。
要約(オリジナル)
Multi-modal large language models (MLLMs) have rapidly advanced in visual tasks, yet their spatial understanding remains limited to single images, leaving them ill-suited for robotics and other real-world applications that require multi-frame reasoning. In this paper, we propose a framework to equip MLLMs with robust multi-frame spatial understanding by integrating depth perception, visual correspondence, and dynamic perception. Central to our approach is the MultiSPA dataset, a novel, large-scale collection of more than 27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves significant gains over baselines and proprietary systems, demonstrating scalable, generalizable multi-frame reasoning. We further observe multi-task benefits and early indications of emergent capabilities in challenging scenarios, and showcase how our model can serve as a multi-frame reward annotator for robotics.
arxiv情報
著者 | Runsen Xu,Weiyao Wang,Hao Tang,Xingyu Chen,Xiaodong Wang,Fu-Jen Chu,Dahua Lin,Matt Feiszli,Kevin J. Liang |
発行日 | 2025-05-22 17:59:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google