要約
LLM は計画スタイルのタスクに使用されることが増えていますが、計画と推論に関する LLM の機能はほとんど理解されていません。
PDDL で記述された計画ベンチマークをテキスト記述に自動的に変換する新しい方法を提案し、その方法で作成されたベンチマーク データセットを提供します。
最高の LLM プランナーは多くの計画タスクをうまくこなす一方で、他のプランナーは現在の方法ではまだ手が届かないことを示します。
要約(オリジナル)
LLMs are being increasingly used for planning-style tasks, but their capabilities for planning and reasoning are poorly understood. We present a novel method for automatically converting planning benchmarks written in PDDL into textual descriptions and offer a benchmark dataset created with our method. We show that while the best LLM planners do well on many planning tasks, others remain out of reach of current methods.
arxiv情報
著者 | Katharina Stein,Alexander Koller |
発行日 | 2023-11-16 11:55:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google