EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

要約

具体化されたエージェントを作成するためにマルチモーダルの大手言語モデル（MLLM）を活用すると、実際のタスクに取り組むための有望な道が提供されます。
言語中心の具体化されたエージェントはかなりの注目を集めていますが、MLLMベースの具体化されたエージェントは、包括的な評価フレームワークがないため、既に採用されていないままです。
このギャップを埋めるために、ビジョン駆動型の具体化されたエージェントを評価するために設計された広範なベンチマークであるEmbodiedBenchを紹介します。
具体化されたベンチ機能：（1）高レベルのセマンティックタスク（家庭）から原子作用（ナビゲーションや操作など）を含む低レベルのタスクに至るまで、4つの環境にわたる1,128のテストタスクの多様なセット。
（2）Commonsenseの推論、複雑な指導の理解、空間認識、視覚認識、長期計画などの重要なエージェント機能を評価する6つの細心の注意を払ってキュレーションされたサブセット。
広範な実験を通じて、EmbodiedBench内の13の主要な独自およびオープンソースMLLMを評価しました。
私たちの調査結果は、MLLMSが高レベルのタスクで優れているが、低レベルの操作に苦労していることを明らかにしています。
EmbodiedBenchは、既存の課題を強調するだけでなく、MLLMベースの具体化されたエージェントを進めるための貴重な洞察を提供する多面的な標準化された評価プラットフォームを提供します。
私たちのコードは、https：//embodiedbench.github.ioで入手できます。

要約(オリジナル)

Leveraging Multi-modal Large Language Models (MLLMs) to create embodied agents offers a promising avenue for tackling real-world tasks. While language-centric embodied agents have garnered substantial attention, MLLM-based embodied agents remain underexplored due to the lack of comprehensive evaluation frameworks. To bridge this gap, we introduce EmbodiedBench, an extensive benchmark designed to evaluate vision-driven embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing tasks across four environments, ranging from high-level semantic tasks (e.g., household) to low-level tasks involving atomic actions (e.g., navigation and manipulation); and (2) six meticulously curated subsets evaluating essential agent capabilities like commonsense reasoning, complex instruction understanding, spatial awareness, visual perception, and long-term planning. Through extensive experiments, we evaluated 13 leading proprietary and open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel at high-level tasks but struggle with low-level manipulation, with the best model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a multifaceted standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance MLLM-based embodied agents. Our code is available at https://embodiedbench.github.io.

arxiv情報

著者	Rui Yang,Hanyang Chen,Junyu Zhang,Mark Zhao,Cheng Qian,Kangrui Wang,Qineng Wang,Teja Venkat Koripella,Marziyeh Movahedi,Manling Li,Heng Ji,Huan Zhang,Tong Zhang
発行日	2025-02-13 18:11:34+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー