要約
マルチステップの空間的推論には、複数のシーケンシャルステップにわたる空間的関係についての理解と推論が必要です。これは、ロボット操作、自律ナビゲーション、自動アセンブリなどの複雑な現実世界アプリケーションに取り組むために重要です。
現在のマルチモーダル大手言語モデル(MLLM)がこの基本的な機能を獲得したことを評価するために、LEGOパズルを導入します。これは、LEGOベースのタスクを通じてMLLMの空間的理解と順次推論の両方を評価するために設計されたスケーラブルなベンチマークです。
レゴパズルは、基本的な空間的理解から複雑なマルチステップ推論に至るまで、11の異なるタスクにまたがる1,100の慎重にキュレーションされた視覚的質問(VQA)サンプルで構成されています。
レゴパズルに基づいて、20の最先端のMLLMの包括的な評価を実施し、空間推論能力の有意な制限を明らかにします。最も強力なMLLMでさえ、テストケースの約半分しか回答できませんが、人間の参加者は90%以上の精度を達成できます。
さらに、レゴパズルに基づいて、MLLMが空間的理解と推論能力をイメージ生成に転送できるかどうかを調査するために、生成タスクを設計します。
私たちの実験は、GPT-4OとGEMINI-2.0-FLASHのみがこれらの命令に従うために限られた能力を示す一方で、他のMLLMは入力画像を複製するか、完全に無関係な出力を生成することを示しています。
全体として、LEGOパズルは、既存のMLLMの空間的理解と順次推論能力の重大な欠陥を暴露し、マルチモーダルの空間推論のさらなる進歩の必要性を強調しています。
要約(オリジナル)
Multi-step spatial reasoning entails understanding and reasoning about spatial relationships across multiple sequential steps, which is crucial for tackling complex real-world applications, such as robotic manipulation, autonomous navigation, and automated assembly. To assess how well current Multimodal Large Language Models (MLLMs) have acquired this fundamental capability, we introduce LEGO-Puzzles, a scalable benchmark designed to evaluate both spatial understanding and sequential reasoning in MLLMs through LEGO-based tasks. LEGO-Puzzles consists of 1,100 carefully curated visual question-answering (VQA) samples spanning 11 distinct tasks, ranging from basic spatial understanding to complex multi-step reasoning. Based on LEGO-Puzzles, we conduct a comprehensive evaluation of 20 state-of-the-art MLLMs and uncover significant limitations in their spatial reasoning capabilities: even the most powerful MLLMs can answer only about half of the test cases, whereas human participants achieve over 90% accuracy. Furthermore, based on LEGO-Puzzles, we design generation tasks to investigate whether MLLMs can transfer their spatial understanding and reasoning abilities to image generation. Our experiments show that only GPT-4o and Gemini-2.0-Flash exhibit a limited ability to follow these instructions, while other MLLMs either replicate the input image or generate completely irrelevant outputs. Overall, LEGO-Puzzles exposes critical deficiencies in existing MLLMs’ spatial understanding and sequential reasoning capabilities, and underscores the need for further advancements in multimodal spatial reasoning.
arxiv情報
著者 | Kexian Tang,Junyao Gao,Yanhong Zeng,Haodong Duan,Yanan Sun,Zhening Xing,Wenran Liu,Kaifeng Lyu,Kai Chen |
発行日 | 2025-06-02 11:06:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google