MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception

要約

長期にわたるオープンワールドのタスクを人間のような方法で解決できる具体化されたシステムを設計することは、長期にわたる目標です。
ただし、既存のアプローチは通常、これらのタスクのロジックを意識した分解とコンテキストを意識した実行によって引き起こされる複合的な困難に悩まされています。
この目的を達成するために、我々は、挑戦的な Minecraft シミュレータ上に構築されたオープンエンドのマルチモーダル具体化システムである MP5 を導入します。これは、実現可能な副目的を分解し、洗練された状況認識型計画を設計し、目標と頻繁にコミュニケーションしながら、具体化されたアクション制御を実行できます。
条件付けされた能動的な知覚スキーム。
具体的には、MP5 は、マルチモーダル大規模言語モデル (MLLM) の最近の進歩に基づいて開発されており、システムは、事前に定義されたコンテキストおよびプロセスに依存するタスクを最終的に解決するために、スケジュールおよび共同作業が可能な機能モジュールに調整されています。
広範な実験により、MP5 はプロセスに依存する困難なタスクでは 22% の成功率を達成し、コンテキストに大きく依存するタスクでは 91% の成功率を達成できることが証明されています。
さらに、MP5 は、まったく新しい、多くの無制限のタスクに対処する驚くべき能力を示します。

要約(オリジナル)

It is a long-lasting goal to design an embodied system that can solve long-horizon open-world tasks in human-like ways. However, existing approaches usually struggle with compound difficulties caused by the logic-aware decomposition and context-aware execution of these tasks. To this end, we introduce MP5, an open-ended multimodal embodied system built upon the challenging Minecraft simulator, which can decompose feasible sub-objectives, design sophisticated situation-aware plans, and perform embodied action control, with frequent communication with a goal-conditioned active perception scheme. Specifically, MP5 is developed on top of recent advances in Multimodal Large Language Models (MLLMs), and the system is modulated into functional modules that can be scheduled and collaborated to ultimately solve pre-defined context- and process-dependent tasks. Extensive experiments prove that MP5 can achieve a 22% success rate on difficult process-dependent tasks and a 91% success rate on tasks that heavily depend on the context. Moreover, MP5 exhibits a remarkable ability to address many open-ended tasks that are entirely novel.

arxiv情報

著者 Yiran Qin,Enshen Zhou,Qichang Liu,Zhenfei Yin,Lu Sheng,Ruimao Zhang,Yu Qiao,Jing Shao
発行日 2023-12-12 17:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク