SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data

要約

ビジョン言語モデル(VLM)は、画像キャプションから視覚的な質問応答(VQA)に至るまでのタスクでうまく機能しますが、人間が優れている私たちの物理的な世界を理解するための重要なスキルである空間的推論と格闘しています。
広く使用されているVLデータセットでは一般的に空間関係はまれであり、十分に表現されているのは少数であり、ほとんどは過小評価されている関係の長い尾を形成していることがわかります。
このギャップにより、VLMSが装備が整っていて、多様な空間的関係を処理します。
それを橋渡しするために、ローカライズされた物語、docci、およびpixmo-capのハイパーセテル画像の説明から生成された空間的推論に焦点を当てた合成VQAデータセットを構築します。
データセットは、340万QAペアを含む455kのサンプルで構成されています。
このデータセットでトレーニングされた空間リレイニングの強化(予備の)VLMは、空間推論ベンチマークの強力な改善を示し、一般的なタスクの強力な結果を維持しながら、What’s Up Benchmarkで最大49%のパフォーマンスゲインを達成します。
私たちの作品は、人間とVLMの空間推論のギャップを狭め、ロボット工学やナビゲーションなどの実際のタスクでVLMをより能力に導きます。

要約(オリジナル)

Vision-language models (VLMs) work well in tasks ranging from image captioning to visual question answering (VQA), yet they struggle with spatial reasoning, a key skill for understanding our physical world that humans excel at. We find that spatial relations are generally rare in widely used VL datasets, with only a few being well represented, while most form a long tail of underrepresented relations. This gap leaves VLMs ill-equipped to handle diverse spatial relationships. To bridge it, we construct a synthetic VQA dataset focused on spatial reasoning generated from hyper-detailed image descriptions in Localized Narratives, DOCCI, and PixMo-Cap. Our dataset consists of 455k samples containing 3.4 million QA pairs. Trained on this dataset, our Spatial-Reasoning Enhanced (SpaRE) VLMs show strong improvements on spatial reasoning benchmarks, achieving up to a 49% performance gain on the What’s Up benchmark, while maintaining strong results on general tasks. Our work narrows the gap between human and VLM spatial reasoning and makes VLMs more capable in real-world tasks such as robotics and navigation.

arxiv情報

著者 Michael Ogezi,Freda Shi
発行日 2025-04-29 11:18:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク