EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning

要約

汎用人工知能 (AGI) の追求は、優れた推論、一般化能力、およびマルチモーダル入力の処理能力を示すマルチモーダル大規模言語モデル (MLLM) によって加速されています。
AGI の進化における重要なマイルストーンは、複雑な環境で情報に基づいた意思決定を行い、現実世界の幅広い問題を解決するための基本的な能力である人間レベルの計画を達成することです。
MLLM の目覚ましい進歩にも関わらず、次のような疑問が残ります。現在の MLLM は人間レベルの計画を達成するのにどのくらい遠いのでしょうか?
この疑問に光を当てるために、人間の認識を反映し、自己中心的な観点から現実世界のシナリオにおける MLLM の計画能力を評価するための包括的なベンチマークである EgoPlan-Bench を紹介します。
EgoPlan-Bench は、MLLM の計画能力の評価に重点を置き、現実的なタスク、多様な行動計画、複雑な視覚的観察を特徴としています。
幅広い MLLM を厳密に評価した結果、EgoPlan-Bench が重大な課題を提示していることが明らかになり、人間レベルのタスク計画を達成するために MLLM に改善の余地が大きいことが浮き彫りになりました。
この進歩を促進するために、EgoPlan-Bench でモデルのパフォーマンスを効果的に向上させる特殊な命令チューニング データセットである EgoPlan-IT をさらに紹介します。
私たちは、すべてのコード、データ、維持されたベンチマーク リーダーボードを将来の研究を進めるために利用できるようにしました。

要約(オリジナル)

The pursuit of artificial general intelligence (AGI) has been accelerated by Multimodal Large Language Models (MLLMs), which exhibit superior reasoning, generalization capabilities, and proficiency in processing multimodal inputs. A crucial milestone in the evolution of AGI is the attainment of human-level planning, a fundamental ability for making informed decisions in complex environments, and solving a wide range of real-world problems. Despite the impressive advancements in MLLMs, a question remains: How far are current MLLMs from achieving human-level planning? To shed light on this question, we introduce EgoPlan-Bench, a comprehensive benchmark to evaluate the planning abilities of MLLMs in real-world scenarios from an egocentric perspective, mirroring human perception. EgoPlan-Bench emphasizes the evaluation of planning capabilities of MLLMs, featuring realistic tasks, diverse action plans, and intricate visual observations. Our rigorous evaluation of a wide range of MLLMs reveals that EgoPlan-Bench poses significant challenges, highlighting a substantial scope for improvement in MLLMs to achieve human-level task planning. To facilitate this advancement, we further present EgoPlan-IT, a specialized instruction-tuning dataset that effectively enhances model performance on EgoPlan-Bench. We have made all codes, data, and a maintained benchmark leaderboard available to advance future research.

arxiv情報

著者 Yi Chen,Yuying Ge,Yixiao Ge,Mingyu Ding,Bohao Li,Rui Wang,Ruifeng Xu,Ying Shan,Xihui Liu
発行日 2024-06-11 06:53:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク