要約
最近、大規模言語モデルの力を活用したマルチモーダル大規模言語モデルの出現により、優れたマルチモーダル理解力と推論能力が実証され、汎用人工知能の新時代の到来を告げています。
ただし、AGI を達成するには、単なる理解と推論以上のものが必要です。
必要とされる重要な能力は、現実世界の問題を解決するために複雑な環境に基づいて合理的な決定を下すことを含む、多様なシナリオにおける効果的な計画を立てることです。
その重要性にもかかわらず、さまざまなシナリオにおける現在の MLLM の計画能力はまだ十分に解明されていません。
このペーパーでは、現実世界の幅広いシナリオにわたって MLLM の計画能力を評価するために設計された厳密かつ包括的なベンチマークである EgoPlan-Bench2 を紹介します。
EgoPlan-Bench2 には、人間の日常生活と密接に連携した、4 つの主要なドメインと 24 の詳細なシナリオにわたる日常のタスクが含まれています。
EgoPlan-Bench2 は、自己中心的なビデオを利用した半自動プロセスを通じて構築され、手動検証によって補完されます。
一人称視点に基づいており、人間が日常生活で問題解決に取り組む方法を反映しています。
私たちは 21 の競合する MLLM を評価し、その限界を詳細に分析し、現実世界の計画において重大な課題に直面していることを明らかにしました。
現在の MLLM の計画能力をさらに向上させるために、複雑な計画におけるさまざまなマルチモーダル プロンプトの有効性を調査することで、マルチモーダル思考連鎖 (CoT) プロンプトを使用したトレーニング不要のアプローチを提案します。
私たちのアプローチは、追加のトレーニングなしで、EgoPlan-Bench2 で GPT-4V のパフォーマンスを 10.24 向上させます。
私たちの研究は、計画における MLLM の現在の制限を明らかにするだけでなく、この重要な領域における将来の機能強化のための洞察も提供します。
データとコードは https://qiulu66.github.io/egoplanbench2/ で利用できるようにしました。
要約(オリジナル)
The advent of Multimodal Large Language Models, leveraging the power of Large Language Models, has recently demonstrated superior multimodal understanding and reasoning abilities, heralding a new era for artificial general intelligence. However, achieving AGI necessitates more than just comprehension and reasoning. A crucial capability required is effective planning in diverse scenarios, which involves making reasonable decisions based on complex environments to solve real-world problems. Despite its importance, the planning abilities of current MLLMs in varied scenarios remain underexplored. In this paper, we introduce EgoPlan-Bench2, a rigorous and comprehensive benchmark designed to assess the planning capabilities of MLLMs across a wide range of real-world scenarios. EgoPlan-Bench2 encompasses everyday tasks spanning 4 major domains and 24 detailed scenarios, closely aligned with human daily life. EgoPlan-Bench2 is constructed through a semi-automatic process utilizing egocentric videos, complemented by manual verification. Grounded in a first-person perspective, it mirrors the way humans approach problem-solving in everyday life. We evaluate 21 competitive MLLMs and provide an in-depth analysis of their limitations, revealing that they face significant challenges in real-world planning. To further improve the planning proficiency of current MLLMs, we propose a training-free approach using multimodal Chain-of-Thought (CoT) prompting through investigating the effectiveness of various multimodal prompts in complex planning. Our approach enhances the performance of GPT-4V by 10.24 on EgoPlan-Bench2 without additional training. Our work not only sheds light on the current limitations of MLLMs in planning, but also provides insights for future enhancements in this critical area. We have made data and code available at https://qiulu66.github.io/egoplanbench2/.
arxiv情報
著者 | Lu Qiu,Yuying Ge,Yi Chen,Yixiao Ge,Ying Shan,Xihui Liu |
発行日 | 2024-12-05 18:57:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google