要約
ビジョン言語モデル(VLM)は、具体化されたエージェントの推論と計画において有望な能力を実証していますが、特に構造化された3D環境内で物理現象を理解する能力は非常に限られたままです。
このギャップを埋めるために、ロボット3Dブロックアセンブリタスクを介して物理的理解と計画に関するVLMSを評価するために設計されたプログレッシブベンチマークであるPhyblockを紹介します。
Phyblockは、ターゲットを絞った視覚的質問(VQA)サンプルとともに、新しい4レベルの認知階層アセンブリタスクを統合します。
Phyblockには、2600のブロックタスク(400のアセンブリタスク、2200 VQAタスク)が含まれており、3つの重要な次元にわたってモデルを評価します。
21の最先端のVLMをベンチマークし、物理的に接地されたマルチステップ計画におけるその強みと制限を強調しています。
私たちの経験的調査結果は、VLMSのパフォーマンスが高レベルの計画と推論能力に顕著な制限を示し、タスクの複雑さの増大のパフォーマンスの顕著な低下につながることを示しています。
エラー分析により、空間方向と依存性推論の持続的な困難が明らかになります。
驚くべきことに、チェーンオブ考えのプロンプトは最小限の改善を提供し、空間的なタスクが直感的なモデルの理解に大きく依存していることを示唆しています。
Phyblockを統一されたテストベッドとして位置付け、具体化された推論を進め、視覚言語の理解と現実世界の身体的問題解決を埋めます。
要約(オリジナル)
While vision-language models (VLMs) have demonstrated promising capabilities in reasoning and planning for embodied agents, their ability to comprehend physical phenomena, particularly within structured 3D environments, remains severely limited. To close this gap, we introduce PhyBlock, a progressive benchmark designed to assess VLMs on physical understanding and planning through robotic 3D block assembly tasks. PhyBlock integrates a novel four-level cognitive hierarchy assembly task alongside targeted Visual Question Answering (VQA) samples, collectively aimed at evaluating progressive spatial reasoning and fundamental physical comprehension, including object properties, spatial relationships, and holistic scene understanding. PhyBlock includes 2600 block tasks (400 assembly tasks, 2200 VQA tasks) and evaluates models across three key dimensions: partial completion, failure diagnosis, and planning robustness. We benchmark 21 state-of-the-art VLMs, highlighting their strengths and limitations in physically grounded, multi-step planning. Our empirical findings indicate that the performance of VLMs exhibits pronounced limitations in high-level planning and reasoning capabilities, leading to a notable decline in performance for the growing complexity of the tasks. Error analysis reveals persistent difficulties in spatial orientation and dependency reasoning. Surprisingly, chain-of-thought prompting offers minimal improvements, suggesting spatial tasks heavily rely on intuitive model comprehension. We position PhyBlock as a unified testbed to advance embodied reasoning, bridging vision-language understanding and real-world physical problem-solving.
arxiv情報
著者 | Liang Ma,Jiajun Wen,Min Lin,Rongtao Xu,Xiwen Liang,Bingqian Lin,Jun Ma,Yongxin Wang,Ziming Wei,Haokun Lin,Mingfei Han,Meng Cao,Bokui Chen,Ivan Laptev,Xiaodan Liang |
発行日 | 2025-06-10 11:46:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google