要約
大規模言語モデル (LLM) は、さまざまな NLP タスクに革命をもたらしました。
議論が活発になるのは、どこまで推論や計画ができるかだ。
これまでの研究では、3 つの PDDL ドメインを自然言語 (NL) プロンプトに手動で変換することに基づいて、PDDL 計画の特定のコンテキストで後者を評価しました。
ここでは、この変換ステップを自動化し、LLM を利用して PDDL 入力から NL プロンプトを自動的に生成する方法を示します。
自動生成された NL プロンプトは、以前に手動で生成されたものと同様の LLM 計画パフォーマンスをもたらします。
さらに、自動化により、より大規模な実験を実行できるようになり、PDDL での LLM 計画パフォーマンスの広範な評価が初めて提供されました。
要約(オリジナル)
Large language models (LLMs) have revolutionized a large variety of NLP tasks. An active debate is to what extent they can do reasoning and planning. Prior work has assessed the latter in the specific context of PDDL planning, based on manually converting three PDDL domains into natural language (NL) prompts. Here we automate this conversion step, showing how to leverage an LLM to automatically generate NL prompts from PDDL input. Our automatically generated NL prompts result in similar LLM-planning performance as the previous manually generated ones. Beyond this, the automation enables us to run much larger experiments, providing for the first time a broad evaluation of LLM planning performance in PDDL.
arxiv情報
著者 | Katharina Stein,Daniel Fišer,Jörg Hoffmann,Alexander Koller |
発行日 | 2025-01-06 13:43:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google