要約
ワークフローを調整し、計画と複数ステップの推論を必要とするドメインで意思決定を行うためのエージェントとして大規模言語モデル (LLM) を使用する作業が増えています。
そのため、計画に必要なコアスキルに基づいて LLM を評価することが不可欠です。
この研究では、計画分野における推論タスクを評価するためのベンチマークである ACPBench を紹介します。
このベンチマークは、13 の計画ドメインにわたる 7 つの推論タスクで構成されます。
このコレクションは、形式言語で記述された計画ドメインから構成されています。
これにより、多くのタスクやドメインにわたって問題を、証明された正しい解決策と統合することができます。
さらに、人間による追加の労力を必要とせずに、スケールを最大限に活用できるようになります。つまり、多くの追加の問題を自動的に作成できます。
22 個の LLM と OpenAI o1 推論モデルの広範な評価では、LLM の推論能力に大きなギャップがあることが浮き彫りになりました。
マルチターン推論モデルである OpenAI o1 に関する調査結果では、多肢選択式の質問ではパフォーマンスが大幅に向上していることが明らかになりましたが、驚くべきことに、ブール式の質問では目立った進歩が見られませんでした。
ACPBench コレクションは https://ibm.github.io/ACPBench で入手できます。
要約(オリジナル)
There is an increasing body of work using Large Language Models (LLMs) as agents for orchestrating workflows and making decisions in domains that require planning and multi-step reasoning. As a result, it is imperative to evaluate LLMs on core skills required for planning. In this work, we present ACPBench, a benchmark for evaluating the reasoning tasks in the field of planning. The benchmark consists of 7 reasoning tasks over 13 planning domains. The collection is constructed from planning domains described in a formal language. This allows us to synthesize problems with provably correct solutions across many tasks and domains. Further, it allows us the luxury of scale without additional human effort, i.e., many additional problems can be created automatically. Our extensive evaluation of 22 LLMs and OpenAI o1 reasoning models highlights the significant gap in the reasoning capability of the LLMs. Our findings with OpenAI o1, a multi-turn reasoning model, reveal significant gains in performance on multiple-choice questions, yet surprisingly, no notable progress is made on boolean questions. The ACPBench collection is available at https://ibm.github.io/ACPBench.
arxiv情報
著者 | Harsha Kokel,Michael Katz,Kavitha Srinivas,Shirin Sohrabi |
発行日 | 2024-10-22 17:16:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google