Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents

要約

私たちは、オープンワールド環境におけるマルチタスクを具現化したエージェントのタスク計画の課題を調査します。
2 つの主な問題が確認されています。1) オープンワールド環境 (Minecraft など) で計画を実行するには、タスクが長期にわたる性質があるため、正確で多段階の推論が必要です。2) バニラの計画立案者は、計画がどれほど容易であるかを考慮していないためです。
現在のエージェントは、複雑な計画内で並行したサブ目標を順序付けるときに、特定のサブタスクを達成できますが、結果として得られる計画は非効率的または実行不可能になる可能性があります。
この目的のために、「$\underline{D}$escribe、$\underline{E}$xplain、$\underline{P}$lan、および $\underline{S}$elect」 ($\textbf{DEPS}) を提案します。
$)、大規模言語モデル (LLM) に基づく対話型の計画アプローチ。
DEPS は、プラン実行プロセスの $\textit{description}$ を統合し、延長中に障害が発生した場合に独自のフィードバックを $\textit{explanation}$ 提供することにより、初期 LLM で生成された $\textit{plan}$ のエラー修正を容易にします。
計画段階。
さらに、目標 $\textit{selector}$ が含まれています。これは、完了の推定ステップに基づいて並列候補のサブ目標をランク付けし、その結果、初期計画を改良するトレーニング可能なモジュールです。
私たちの実験は、70 以上の Minecraft タスクを確実に実行し、全体的なパフォーマンスをほぼ 2 倍にすることができる、初のゼロショット マルチタスク エージェントのマイルストーンを示しています。
さらなるテストにより、広く採用されている非オープンエンドドメイン (つまり、ALFWorld やテーブルトップ操作) においても同様に私たちの方法の一般的な有効性が明らかになります。
アブレーションと探索的研究は、当社の設計がどのように他の製品に勝るかを詳述し、当社のアプローチによる $\texttt{ObtainDiamond}$ の壮大な課題に関する有望な最新情報を提供します。
コードは https://github.com/CraftJarvis/MC-Planner でリリースされています。

要約(オリジナル)

We investigate the challenge of task planning for multi-task embodied agents in open-world environments. Two main difficulties are identified: 1) executing plans in an open-world environment (e.g., Minecraft) necessitates accurate and multi-step reasoning due to the long-term nature of tasks, and 2) as vanilla planners do not consider how easy the current agent can achieve a given sub-task when ordering parallel sub-goals within a complicated plan, the resulting plan could be inefficient or even infeasible. To this end, we propose ‘$\underline{D}$escribe, $\underline{E}$xplain, $\underline{P}$lan and $\underline{S}$elect’ ($\textbf{DEPS}$), an interactive planning approach based on Large Language Models (LLMs). DEPS facilitates better error correction on initial LLM-generated $\textit{plan}$ by integrating $\textit{description}$ of the plan execution process and providing self-$\textit{explanation}$ of feedback when encountering failures during the extended planning phases. Furthermore, it includes a goal $\textit{selector}$, which is a trainable module that ranks parallel candidate sub-goals based on the estimated steps of completion, consequently refining the initial plan. Our experiments mark the milestone of the first zero-shot multi-task agent that can robustly accomplish 70+ Minecraft tasks and nearly double the overall performances. Further testing reveals our method’s general effectiveness in popularly adopted non-open-ended domains as well (i.e., ALFWorld and tabletop manipulation). The ablation and exploratory studies detail how our design beats the counterparts and provide a promising update on the $\texttt{ObtainDiamond}$ grand challenge with our approach. The code is released at https://github.com/CraftJarvis/MC-Planner.

arxiv情報

著者 Zihao Wang,Shaofei Cai,Guanzhou Chen,Anji Liu,Xiaojian Ma,Yitao Liang
発行日 2023-10-29 17:03:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク