要約
LLM は計画スタイルのタスクに使用されることが増えていますが、計画と推論に関する LLM の機能はほとんど理解されていません。
私たちは、PDDL で記述された計画ベンチマークをテキスト記述に自動的に変換する新しい方法である AutoPlanBench を紹介し、私たちの方法で作成されたベンチマーク データセットを提供します。
最高の LLM プランナーは一部の計画タスクではうまくやる一方で、他の計画タスクでは現在の方法では手が届かないことを示します。
要約(オリジナル)
LLMs are being increasingly used for planning-style tasks, but their capabilities for planning and reasoning are poorly understood. We present AutoPlanBench, a novel method for automatically converting planning benchmarks written in PDDL into textual descriptions and offer a benchmark dataset created with our method. We show that while the best LLM planners do well on some planning tasks, others remain out of reach of current methods.
arxiv情報
著者 | Katharina Stein,Daniel Fišer,Jörg Hoffmann,Alexander Koller |
発行日 | 2024-02-09 09:48:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google