MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents

要約

空間計画は、空間インテリジェンスの分野で重要な部分であり、空間の観点からのオブジェクトの配置に関する理解と計画が必要です。
空間計画能力を備えたAIエージェントは、ロボット操作、自動アセンブリ、都市計画など、さまざまな現実世界のアプリケーションにより適応することができます。最近の作品は、マルチモーダル大手言語モデル(MLLM)の空間インテリジェンスを評価するためのベンチマークを構築しようとしました。
それにもかかわらず、これらのベンチマークは、主に典型的な視覚的質問(VQA)フォームに基づいた空間的推論に焦点を当てており、抽象的な空間的理解と具体的なタスクの実行の間のギャップに苦しんでいます。
この作業では、MineanyBuildと呼ばれる包括的なベンチマークを構築するためにさらに一歩進んで、MinecraftゲームのオープンワールドAIエージェントの空間計画能力を評価することを目指しています。
具体的には、MineanyBuildは、特定のマルチモーダルの人間の指示に基づいて、エージェントが実行可能なアーキテクチャ構築計画を生成することを要求しています。
4,000のキュレーションされた空間計画タスクが含まれ、リッチなプレーヤーで生成されたコンテンツを利用することにより、無限に拡張可能なデータ収集のパラダイムも提供します。
MineAnyBuildは、空間的理解、空間推論、創造性、空間的コモンセンスの4つのコアサポート次元を通じて空間計画を評価します。
MineanyBuildに基づいて、既存のMLLMベースのエージェントに対して包括的な評価を実行し、空間計画能力における深刻な制限があるが大きな可能性を明らかにしています。
私たちのMineanyBuildは、空間インテリジェンスの評価のための新しい道を開き、空間計画が可能なオープンワールドAIエージェントのさらなる開発を促進するのに役立つと考えています。

要約(オリジナル)

Spatial Planning is a crucial part in the field of spatial intelligence, which requires the understanding and planning about object arrangements in space perspective. AI agents with the spatial planning ability can better adapt to various real-world applications, including robotic manipulation, automatic assembly, urban planning etc. Recent works have attempted to construct benchmarks for evaluating the spatial intelligence of Multimodal Large Language Models (MLLMs). Nevertheless, these benchmarks primarily focus on spatial reasoning based on typical Visual Question-Answering (VQA) forms, which suffers from the gap between abstract spatial understanding and concrete task execution. In this work, we take a step further to build a comprehensive benchmark called MineAnyBuild, aiming to evaluate the spatial planning ability of open-world AI agents in the Minecraft game. Specifically, MineAnyBuild requires an agent to generate executable architecture building plans based on the given multi-modal human instructions. It involves 4,000 curated spatial planning tasks and also provides a paradigm for infinitely expandable data collection by utilizing rich player-generated content. MineAnyBuild evaluates spatial planning through four core supporting dimensions: spatial understanding, spatial reasoning, creativity, and spatial commonsense. Based on MineAnyBuild, we perform a comprehensive evaluation for existing MLLM-based agents, revealing the severe limitations but enormous potential in their spatial planning abilities. We believe our MineAnyBuild will open new avenues for the evaluation of spatial intelligence and help promote further development for open-world AI agents capable of spatial planning.

arxiv情報

著者 Ziming Wei,Bingqian Lin,Zijian Jiao,Yunshuang Nie,Liang Ma,Yuecheng Liu,Yuzheng Zhuang,Xiaodan Liang
発行日 2025-05-27 13:22:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク