要約
最近の研究では、大規模言語モデル (LLM) がプランナーとして機能できるかどうか、つまりタスクが与えられてプランを生成できるかどうかが検討されています。
私たちは、LLM が一般化されたプランナーとして機能できるかどうかを調査します。与えられたドメインとトレーニング タスクで、ドメイン内の他のタスクの計画を効率的に作成するプログラムを生成します。
特に、PDDL ドメインを考慮し、GPT-4 を使用して Python プログラムを合成します。
また、(1) 思考連鎖 (CoT) 要約。LLM は、プログラムを合成する前にドメインを要約し、言葉で戦略を提案するように求められます。
(2) 自動デバッグでは、トレーニング タスクに関してプログラムが検証され、エラーが発生した場合には、LLM に 4 種類のフィードバックが再度求められます。
このアプローチを 7 つの PDDL ドメインで評価し、4 つのアブレーションおよび 4 つのベースラインと比較します。
全体として、GPT-4 は驚くほど強力な汎用プランナーであることがわかります。
また、自動デバッグは非常に重要であり、CoT 要約には不均一な影響があり、GPT-4 は GPT-3.5 よりもはるかに優れており、多くの場合、強力な汎化には 2 つのトレーニング タスクだけで十分であると結論付けています。
要約(オリジナル)
Recent work has considered whether large language models (LLMs) can function as planners: given a task, generate a plan. We investigate whether LLMs can serve as generalized planners: given a domain and training tasks, generate a program that efficiently produces plans for other tasks in the domain. In particular, we consider PDDL domains and use GPT-4 to synthesize Python programs. We also consider (1) Chain-of-Thought (CoT) summarization, where the LLM is prompted to summarize the domain and propose a strategy in words before synthesizing the program; and (2) automated debugging, where the program is validated with respect to the training tasks, and in case of errors, the LLM is re-prompted with four types of feedback. We evaluate this approach in seven PDDL domains and compare it to four ablations and four baselines. Overall, we find that GPT-4 is a surprisingly powerful generalized planner. We also conclude that automated debugging is very important, that CoT summarization has non-uniform impact, that GPT-4 is far superior to GPT-3.5, and that just two training tasks are often sufficient for strong generalization.
arxiv情報
著者 | Tom Silver,Soham Dan,Kavitha Srinivas,Joshua B. Tenenbaum,Leslie Pack Kaelbling,Michael Katz |
発行日 | 2023-05-18 14:48:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google