要約
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに革命をもたらした。活発な議論は、LLMがどの程度まで推論やプランニングを行えるかということである。先行研究では、3つのPDDLドメインを自然言語(NL)プロンプトに手動で変換することに基づいて、PDDLプランニングという特定の文脈で後者を評価している。ここでは、この変換ステップを自動化し、LLMを活用してPDDL入力からNLプロンプトを自動生成する方法を示す。自動生成されたNLプロンプトは、従来の手作業で生成されたものと同様のLLMプランニング性能を示した。また、自動化により、より大規模な実験が可能となり、PDDLにおけるLLMプランニング性能の広範な評価が初めて可能となった。我々のNLプロンプトは、PDDLプロンプトや単純なテンプレートベースのNLプロンプトよりも優れた性能をもたらす。記号的プランナと比べて、LLMプランニングは大きく遅れをとるが、いくつかのドメ インでは、我々の最良のLLM構成は、LM-cutを使ったA$^star$よりさらにスケール アップする。
要約(オリジナル)
Large language models (LLMs) have revolutionized a large variety of NLP tasks. An active debate is to what extent they can do reasoning and planning. Prior work has assessed the latter in the specific context of PDDL planning, based on manually converting three PDDL domains into natural language (NL) prompts. Here we automate this conversion step, showing how to leverage an LLM to automatically generate NL prompts from PDDL input. Our automatically generated NL prompts result in similar LLM-planning performance as the previous manually generated ones. Beyond this, the automation enables us to run much larger experiments, providing for the first time a broad evaluation of LLM planning performance in PDDL. Our NL prompts yield better performance than PDDL prompts and simple template-based NL prompts. Compared to symbolic planners, LLM planning lags far behind; but in some domains, our best LLM configuration scales up further than A$^\star$ using LM-cut.
arxiv情報
| 著者 | Katharina Stein,Daniel Fišer,Jörg Hoffmann,Alexander Koller |
| 発行日 | 2025-05-02 10:41:18+00:00 |
| arxivサイト | arxiv_id(pdf) |