要約
大規模な言語モデル(LLM)は、複雑な推論で急速な進歩を経験しており、数学とプログラミングの顕著な一般化を示しています。
対照的に、空間知能は現実世界の相互作用におけるビジョン言語モデル(VLM)の基本ですが、空間的コンテキスト内での複雑な推論能力の体系的な評価は未掘削装置のままです。
このギャップを埋めるために、ビデオベースの推論タスクを通じてVLMSの空間インテリジェンスを評価するために設計されたベンチマークであるSiri-Benchを紹介します。
Siri-Benchは、1K近くのビデオ質問を回答するトリプレットで構成されており、各問題は現実的な3Dシーンに埋め込まれ、ビデオでキャプチャされます。
質問と対応する3Dシーンを慎重に設計することにより、質問を解決するには、情報を抽出するための空間的理解とソリューションを導き出すための高レベルの推論の両方が必要であり、VLMを評価するための挑戦的なベンチマークになることを保証します。
大規模なデータ合成を促進するために、自動シーン作成エンジンを開発します。
複数の専門LLMエージェントを活用するこのエンジンは、抽象的な数学の問題から現実的な3Dシーンを生成し、元の説明への忠実さを確保することができます。
実験結果は、最先端のVLMSがSiri-Benchで大幅に苦労しており、空間的推論の課題を強調していることを明らかにしています。
私たちの研究が、空間的に根拠のある推論に研究者の注意を喚起し、視覚的な問題解決におけるVLMを前進させることを願っています。
要約(オリジナル)
Large Language Models (LLMs) are experiencing rapid advancements in complex reasoning, exhibiting remarkable generalization in mathematics and programming. In contrast, while spatial intelligence is fundamental for Vision-Language Models (VLMs) in real-world interaction, the systematic evaluation of their complex reasoning ability within spatial contexts remains underexplored. To bridge this gap, we introduce SIRI-Bench, a benchmark designed to evaluate VLMs’ spatial intelligence through video-based reasoning tasks. SIRI-Bench comprises nearly 1K video-question-answer triplets, where each problem is embedded in a realistic 3D scene and captured by video. By carefully designing questions and corresponding 3D scenes, our benchmark ensures that solving the questions requires both spatial comprehension for extracting information and high-level reasoning for deriving solutions, making it a challenging benchmark for evaluating VLMs. To facilitate large-scale data synthesis, we develop an Automatic Scene Creation Engine. This engine, leveraging multiple specialized LLM agents, can generate realistic 3D scenes from abstract math problems, ensuring faithfulness to the original descriptions. Experimental results reveal that state-of-the-art VLMs struggle significantly on SIRI-Bench, underscoring the challenge of spatial reasoning. We hope that our study will bring researchers’ attention to spatially grounded reasoning and advance VLMs in visual problem-solving.
arxiv情報
著者 | Zijian Song,Xiaoxin Lin,Qiuming Huang,Guangrun Wang,Liang Lin |
発行日 | 2025-06-17 13:40:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google