Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages

要約

最近の多くの研究では、計画問題に言語モデルを使用することが検討されている。研究の1つは、計画タスクの自然言語記述を、計画ドメイン定義言語(PDDL)のような構造化計画言語に翻訳することに焦点を当てている。このアプローチは有望であるが、生成されたPDDLコードの品質を正確に測定することは、依然として大きな課題である。第一に、生成されたPDDLコードは通常、プランナで問題を解決できるかどうかをチェックするプランニングバリデータを使って評価される。言語モデルは、タスクの自然言語記述と一致しない有効なPDDLコードを生成する可能性があるため、この方法は不十分である。第2に、既存の評価セットは、グランド・トゥルースのPDDLによく似たプランニング・タスクの自然言語記述を持っていることが多く、タスクの難易度を下げています。このギャップを埋めるために、プランニングタスクの自然言語記述からPDDLコードを生成する言語モデルの能力を評価するために設計されたベンチマークである「˶benchmarkName」を紹介します。まず、言語モデルによって生成されたPDDLコードの正しさを、グランドトゥルースPDDLと柔軟に比較することによって厳密に評価するPDDL等価性アルゴリズムを作成します。次に、難易度の異なる13のタスクにわたる$132,037$のテキストとPDDLのペアのデータセットを提示する。最後に、このタスクの複雑さを明らかにする、いくつかのAPIアクセスとオープンウェイト言語モデルを評価する。例えば、GPT-4oによって生成されたPDDL問題記述のうち、$87.6%$は構文解析可能であり、$82.2%$は有効で解決可能な問題であるが、$35.1%$だけが意味的に正しい。

要約(オリジナル)

Many recent works have explored using language models for planning problems. One line of research focuses on translating natural language descriptions of planning tasks into structured planning languages, such as the planning domain definition language (PDDL). While this approach is promising, accurately measuring the quality of generated PDDL code continues to pose significant challenges. First, generated PDDL code is typically evaluated using planning validators that check whether the problem can be solved with a planner. This method is insufficient because a language model might generate valid PDDL code that does not align with the natural language description of the task. Second, existing evaluation sets often have natural language descriptions of the planning task that closely resemble the ground truth PDDL, reducing the challenge of the task. To bridge this gap, we introduce \benchmarkName, a benchmark designed to evaluate language models’ ability to generate PDDL code from natural language descriptions of planning tasks. We begin by creating a PDDL equivalence algorithm that rigorously evaluates the correctness of PDDL code generated by language models by flexibly comparing it against a ground truth PDDL. Then, we present a dataset of $132,037$ text-to-PDDL pairs across 13 different tasks, with varying levels of difficulty. Finally, we evaluate several API-access and open-weight language models that reveal this task’s complexity. For example, $87.6\%$ of the PDDL problem descriptions generated by GPT-4o are syntactically parseable, $82.2\%$ are valid, solve-able problems, but only $35.1\%$ are semantically correct, highlighting the need for a more rigorous benchmark for this problem.

arxiv情報

著者 Max Zuo,Francisco Piedrahita Velez,Xiaochen Li,Michael L. Littman,Stephen H. Bach
発行日 2024-07-03 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク