PDDLEGO: Iterative Planning in Textual Environments

要約

テキスト環境での計画は、現在のモデルでも長年の課題であることがわかっています。
最近の有望な研究では、LLM を使用して、シンボリック プランナーで解決できる環境の正式な表現を生成します。
ただし、既存の方法は、すべてのエンティティの状態が最初にわかっている、完全に観察された環境に依存しているため、1 回限りの表現を構築して、完全な計画に導くことができます。
対照的に、私たちは、最終目標を計画するための十分な情報が当初は存在しない、部分的に観察された環境に取り組みます。
私たちは、特定のサブ目標の部分的な計画につながる計画表現を反復的に構築する PDDLEGO を提案します。
サブ目標を達成すると、より多くの情報が取得されて表現が強化され、最終的には最終目標が達成されます。
数ショットの PDDLEGO によって生成された計画は、Coin Collector シミュレーションでエンドツーエンドで計画を生成するよりも 43% 効率的であり、エンドツーエンドの LLM が使用されるより複雑なクッキング ワールド シミュレーションでは優れたパフォーマンス (98%) であることを示しています。
一貫した計画を立てることができない (4%)。

要約(オリジナル)

Planning in textual environments have been shown to be a long-standing challenge even for current models. A recent, promising line of work uses LLMs to generate a formal representation of the environment that can be solved by a symbolic planner. However, existing methods rely on a fully-observed environment where all entity states are initially known, so a one-off representation can be constructed, leading to a complete plan. In contrast, we tackle partially-observed environments where there is initially no sufficient information to plan for the end-goal. We propose PDDLEGO that iteratively construct a planning representation that can lead to a partial plan for a given sub-goal. By accomplishing the sub-goal, more information is acquired to augment the representation, eventually achieving the end-goal. We show that plans produced by few-shot PDDLEGO are 43% more efficient than generating plans end-to-end on the Coin Collector simulation, with strong performance (98%) on the more complex Cooking World simulation where end-to-end LLMs fail to generate coherent plans (4%).

arxiv情報

著者 Li Zhang,Peter Jansen,Tianyi Zhang,Peter Clark,Chris Callison-Burch,Niket Tandon
発行日 2024-08-09 14:18:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク