要約
マルチモーダル大規模言語モデルは、大規模言語モデル (LLM) の優れた推論および一般化機能と視覚入力を理解する機能を組み合わせたもので、具体化されたタスク計画に新しい道を開きました。
リアルタイムのタスクの進行状況、視覚的観察、自由形式の言語指示など、多様な環境入力が与えられると、熟練したタスク プランナーは実行可能なアクションを予測することが期待されますが、これはマルチモーダル大規模言語モデル (MLLM) によって本質的に達成可能な偉業です。
このペーパーでは、EgoPlan-Bench という名前の人による注釈を備えたベンチマークを導入することにより、現実世界のシナリオにおける具体化されたタスク プランナーとしての MLLM の可能性を定量的に調査することを目的としています。
私たちのベンチマークは、現実世界のビデオから派生した現実的なタスク、何百もの異なるオブジェクトとのインタラクションを伴う多様なアクション、およびさまざまなシーンからの複雑な視覚的観察によって区別されます。
私たちは幅広い MLLM を評価し、これらのモデルがまだ具体化された計画ジェネラリスト (GPT-4V でさえ) に進化していないことを明らかにしました。
さらに、人間と物体の相互作用を含むビデオから命令調整データセット EgoPlan-IT を構築し、複雑な現実世界の状況における高レベルのタスク計画の学習を促進します。
実験結果は、EgoPlan-IT で調整されたモデルがベンチマークのパフォーマンスを大幅に向上させるだけでなく、シミュレーションで身体化されたエージェントをガイドするためのタスク プランナーとしても適用できることを示しています。
要約(オリジナル)
Multimodal Large Language Models, combining the remarkable reasoning and generalization capabilities of Large Language Models (LLMs) with the ability to comprehend visual inputs, have opened up new avenues for embodied task planning. Given diverse environmental inputs, including real-time task progress, visual observations, and open-form language instructions, a proficient task planner is expected to predict feasible actions, which is a feat inherently achievable by Multimodal Large Language Models (MLLMs). In this paper, we aim to quantitatively investigate the potential of MLLMs as embodied task planners in real-world scenarios by introducing a benchmark with human annotations named EgoPlan-Bench. Our benchmark is distinguished by realistic tasks derived from real-world videos, a diverse set of actions involving interactions with hundreds of different objects, and complex visual observations from varied scenes. We evaluate a wide range of MLLMs, revealing that these models have not yet evolved into embodied planning generalists (even GPT-4V). We further construct an instruction-tuning dataset EgoPlan-IT from videos with human-object interactions, to facilitate the learning of high-level task planning in intricate real-world situations. The experiment results demonstrate that the model tuned on EgoPlan-IT not only significantly improves performance on our benchmark, but can also be applied as a task planner for guiding embodied agents in simulations.
arxiv情報
著者 | Yi Chen,Yuying Ge,Yixiao Ge,Mingyu Ding,Bohao Li,Rui Wang,Ruifeng Xu,Ying Shan,Xihui Liu |
発行日 | 2024-04-17 13:56:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google