On the Planning Abilities of Large Language Models (A Critical Investigation with a Proposed Benchmark)

要約

一般的な Web コーパスでトレーニングされた LLM の創発的推論機能の主張に興味をそそられ、この論文では、それらの計画機能の調査に着手しました。
(1) 常識的な計画タスク (人間が一般的に非常に得意とするタイプ) で単純な計画を生成および検証する際に、LLM 自体がどの程度優れているか、および (2) LLM がヒューリスティック ガイダンスのソースとしてどの程度優れているかを評価することを目的としています。
他のエージェント (AI プランナーまたは人間のプランナー) の計画タスクで。
これらの問題を事例ではなく体系的に調査するために、国際計画コンペティションで採用されたドメインの種類に基づいてベンチマーク スイートを開発することから始めます。
このベンチマークでは、LLM を 3 つのモード (自律型、ヒューリスティック、ヒューマン イン ザ ループ) で評価します。
私たちの結果は、実行可能な計画を自律的に生成する LLM の能力は非常に貧弱であり、平均成功率は約 3% にすぎないことを示しています。
ヒューリスティック モードとヒューマン イン ザ ループ モードは、もう少し有望です。
これらの結果に加えて、研究コミュニティによる調査をサポートするために、ベンチマークと評価ツールも利用できるようにしています。

要約(オリジナル)

Intrigued by the claims of emergent reasoning capabilities in LLMs trained on general web corpora, in this paper, we set out to investigate their planning capabilities. We aim to evaluate (1) how good LLMs are by themselves in generating and validating simple plans in commonsense planning tasks (of the type that humans are generally quite good at) and (2) how good LLMs are in being a source of heuristic guidance for other agents–either AI planners or human planners–in their planning tasks. To investigate these questions in a systematic rather than anecdotal manner, we start by developing a benchmark suite based on the kinds of domains employed in the International Planning Competition. On this benchmark, we evaluate LLMs in three modes: autonomous, heuristic and human-in-the-loop. Our results show that LLM’s ability to autonomously generate executable plans is quite meager, averaging only about 3% success rate. The heuristic and human-in-the-loop modes show slightly more promise. In addition to these results, we also make our benchmark and evaluation tools available to support investigations by research community.

arxiv情報

著者 Karthik Valmeekam,Sarath Sreedharan,Matthew Marquez,Alberto Olmo,Subbarao Kambhampati
発行日 2023-02-13 21:37:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク