Tree-Planner: Efficient Close-loop Task Planning with Large Language Models

要約

この論文では、クローズループ タスク プランニングについて研究します。これは、リアルタイムの観察に基づいて計画を調整しながら、特定の目標を達成するための一連のスキル (計画) を生成するプロセスを指します。
最近では、大規模言語モデル (LLM) にアクションを反復的に生成させることが、その優れたパフォーマンスと使いやすさにより、広く普及しているパラダイムとなっています。
ただし、このパラダイムには、トークンの大量消費と冗長なエラー修正という 2 つの非効率性があり、どちらも大規模なテストやアプリケーションの拡張性を妨げています。
これらの問題に対処するために、LLM によるタスク計画を計画のサンプリング、アクション ツリーの構築、根拠のある決定という 3 つの異なる段階に再構成する Tree-Planner を提案します。
Tree-Planner は、実行前に LLM を使用して潜在的なプランのセットをサンプリングし、続いてそれらを集約してアクション ツリーを形成します。
最後に、LLM は、リアルタイムの環境情報を考慮して、ツリー上でトップダウンの意思決定プロセスを実行します。
実験では、Tree-Planner が高い効率を維持しながら最先端のパフォーマンスを達成することが示されています。
LLM クエリを単一の計画サンプリング呼び出しと複数の根拠のある決定呼び出しに分解することにより、プロンプトのかなりの部分が繰り返し使用される可能性が低くなります。
その結果、トークンの消費量は、以前の最高パフォーマンスのモデルと比較して 92.2% 削減されました。
さらに、必要に応じてアクション ツリーでバックトラッキングを有効にすることで、修正プロセスがより柔軟になり、エラー修正が 40.5% 減少します。

要約(オリジナル)

This paper studies close-loop task planning, which refers to the process of generating a sequence of skills (a plan) to accomplish a specific goal while adapting the plan based on real-time observations. Recently, prompting Large Language Models (LLMs) to generate actions iteratively has become a prevalent paradigm due to its superior performance and user-friendliness. However, this paradigm is plagued by two inefficiencies: high token consumption and redundant error correction, both of which hinder its scalability for large-scale testing and applications. To address these issues, we propose Tree-Planner, which reframes task planning with LLMs into three distinct phases: plan sampling, action tree construction, and grounded deciding. Tree-Planner starts by using an LLM to sample a set of potential plans before execution, followed by the aggregation of them to form an action tree. Finally, the LLM performs a top-down decision-making process on the tree, taking into account real-time environmental information. Experiments show that Tree-Planner achieves state-of-the-art performance while maintaining high efficiency. By decomposing LLM queries into a single plan-sampling call and multiple grounded-deciding calls, a considerable part of the prompt are less likely to be repeatedly consumed. As a result, token consumption is reduced by 92.2% compared to the previously best-performing model. Additionally, by enabling backtracking on the action tree as needed, the correction process becomes more flexible, leading to a 40.5% decrease in error corrections.

arxiv情報

著者 Mengkang Hu,Yao Mu,Xinmiao Yu,Mingyu Ding,Shiguang Wu,Wenqi Shao,Qiguang Chen,Bin Wang,Yu Qiao,Ping Luo
発行日 2024-07-24 12:25:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO パーマリンク