要約
運動と空間に関する推論は、複数の実世界アプリケーションで必要とされる基本的な認知能力である。多くの研究が、大規模なマルチモーダル言語モデル(MLM)が空間に関する推論に苦労していることを強調しているが、それらは静的な空間関係にのみ焦点を当てており、動きと空間に関する動的な認識、すなわち、空間関係に対する自心運動や物体運動の影響に関する推論には焦点を当てていない。このようなオブジェクトやカメラの動きを手動でアノテートするのはコストがかかる。そこで、我々は、17万5千の質問と回答(QA)のペアと2万シーンにわたる静的および動的な空間的推論からなる模擬空間適性訓練データセットであるSATを導入する。これを補完するために、我々はまた、実世界の画像を用いて、小規模(150画像-QA)でありながら挑戦的な動的空間テストセットを構築する。我々のSATデータセットと既存の6つの静的空間ベンチマークを活用し、静的空間認識と動的空間認識の両方を向上させるものを系統的に調査する。その結果、シミュレーションは、MLMに空間適性を付与する上で驚くほど効果的であり、それが実画像に反映されることが明らかになった。シミュレーションにおける完全なアノテーションは、実画像を擬似的にアノテーションする既存のアプローチよりも効果的であることを示す。例えば、SATのトレーニングは、実画像の動的テストセットや長い動画に対する空間推論を含む複数の空間ベンチマークにおいて、LLaVA-13Bモデルを平均11%、LLaVA-Video-7Bモデルを平均8%向上させる。静的な関係に対する推論は合成訓練データによって改善されるが、動的な推論問題にはまだかなりの改善の余地がある。
要約(オリジナル)
Reasoning about motion and space is a fundamental cognitive capability that is required by multiple real-world applications. While many studies highlight that large multimodal language models (MLMs) struggle to reason about space, they only focus on static spatial relationships, and not dynamic awareness of motion and space, i.e., reasoning about the effect of egocentric and object motions on spatial relationships. Manually annotating such object and camera movements is expensive. Hence, we introduce SAT, a simulated spatial aptitude training dataset comprising both static and dynamic spatial reasoning across 175K question-answer (QA) pairs and 20K scenes. Complementing this, we also construct a small (150 image-QAs) yet challenging dynamic spatial test set using real-world images. Leveraging our SAT datasets and 6 existing static spatial benchmarks, we systematically investigate what improves both static and dynamic spatial awareness. Our results reveal that simulations are surprisingly effective at imparting spatial aptitude to MLMs that translate to real images. We show that perfect annotations in simulation are more effective than existing approaches of pseudo-annotating real images. For instance, SAT training improves a LLaVA-13B model by an average 11% and a LLaVA-Video-7B model by an average 8% on multiple spatial benchmarks, including our real-image dynamic test set and spatial reasoning on long videos — even outperforming some large proprietary models. While reasoning over static relationships improves with synthetic training data, there is still considerable room for improvement for dynamic reasoning questions.
arxiv情報
著者 | Arijit Ray,Jiafei Duan,Ellis Brown,Reuben Tan,Dina Bashkirova,Rose Hendrix,Kiana Ehsani,Aniruddha Kembhavi,Bryan A. Plummer,Ranjay Krishna,Kuo-Hao Zeng,Kate Saenko |
発行日 | 2025-04-03 17:59:24+00:00 |
arxivサイト | arxiv_id(pdf) |