PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

要約

物理的な世界を理解することは、具体化されたAIの基本的な課題であり、エージェントが複雑なタスクを実行し、実際の環境で安全に動作できるようにするために重要です。
ビジョン言語モデル(VLM)は、具体化されたエージェントの推論とタスク計画に大きな期待を示していますが、物理的現象を理解する能力は非常に限られたままです。
このギャップを埋めるために、VLMSの物理的な世界理解能力を多様なタスクセットで評価するために設計された包括的なベンチマークであるPhysbenchを紹介します。
Physbenchには、4つの主要なドメインに分類されたインターリーブビデオイメージテキストデータの10,002エントリが含まれています。物理オブジェクトプロパティ、物理オブジェクト関係、物理シーンの理解、および物理ベースのダイナミクスの4つの主要なドメインは、さらに19のサブクラスと8個の異なる能力ディメンションに分けられます。
75人の代表VLMで実施された広範な実験は、これらのモデルが一般的な推論に優れているが、物理的な世界を理解することに苦労していることを明らかにしています。

不足に取り組むために、VLMの一般化強度とビジョンモデルの専門的な専門知識を組み合わせた新しいフレームワークであるPhysagentを紹介し、GPT-4oの18.4 \%改善を含むさまざまなタスクにわたってVLMSの物理的理解を大幅に向上させます。
さらに、我々の結果は、VLMの物理的世界理解能力を強化することで、Mokaなどの具体化されたエージェントに役立つことを示しています。
PhysbenchとPhysagentは貴重な洞察を提供し、VLMと物理的な世界の理解のギャップを埋めることに貢献していると考えています。

要約(オリジナル)

Understanding the physical world is a fundamental challenge in embodied AI, critical for enabling agents to perform complex tasks and operate safely in real-world environments. While Vision-Language Models (VLMs) have shown great promise in reasoning and task planning for embodied agents, their ability to comprehend physical phenomena remains extremely limited. To close this gap, we introduce PhysBench, a comprehensive benchmark designed to evaluate VLMs’ physical world understanding capability across a diverse set of tasks. PhysBench contains 10,002 entries of interleaved video-image-text data, categorized into four major domains: physical object properties, physical object relationships, physical scene understanding, and physics-based dynamics, further divided into 19 subclasses and 8 distinct capability dimensions. Our extensive experiments, conducted on 75 representative VLMs, reveal that while these models excel in common-sense reasoning, they struggle with understanding the physical world — likely due to the absence of physical knowledge in their training data and the lack of embedded physical priors. To tackle the shortfall, we introduce PhysAgent, a novel framework that combines the generalization strengths of VLMs with the specialized expertise of vision models, significantly enhancing VLMs’ physical understanding across a variety of tasks, including an 18.4\% improvement on GPT-4o. Furthermore, our results demonstrate that enhancing VLMs’ physical world understanding capabilities can help embodied agents such as MOKA. We believe that PhysBench and PhysAgent offer valuable insights and contribute to bridging the gap between VLMs and physical world understanding.

arxiv情報

著者 Wei Chow,Jiageng Mao,Boyi Li,Daniel Seita,Vitor Guizilini,Yue Wang
発行日 2025-01-29 03:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク