要約
近年、大規模な言語モデル(LLM)は、さまざまな人工知能の問題に顕著な能力を示しています。
ただし、計画タスクの詳細な定義でプロンプトされた場合でも、それらは確実に計画を立てていません。
考え方の促し、微調整、明示的な「推論」など、計画能力を改善しようとする試みは、依然として誤った計画をもたらし、通常はより大きなタスクに一般化することができません。
このホワイトペーパーでは、サイズの増加の分散型タスクであっても、LLMSを使用して正しい計画を生成する方法を示します。
特定の計画ドメインについては、LLMにPythonコードの形でいくつかのドメイン依存性ヒューリスティック関数を生成し、貪欲なベストファースト検索内の一連のトレーニングタスクでそれらを評価し、最強の検索を選択します。
結果として生成されるLLM生成ヒューリスティックは、古典的な計画のための最先端のドメインに依存しないヒューリスティックよりも、より多くの目に見えないテストタスクを解決します。
それらは、ドメイン依存の計画のための最も強力な学習アルゴリズムとさえ競争しています。
これらの調査結果は、概念実証の実装が最適化されていないPythonプランナーに基づいており、すべてが高度に最適化されたC ++コードに基づいて構築されていることを考えると、特に顕著です。
一部のドメインでは、LLMが生成したヒューリスティックは、ベースラインよりも少ない状態を拡張し、効率的に計算可能であるだけでなく、最先端のヒューリスティックよりもさらに有益であることが明らかになりました。
全体として、我々の結果は、一連の計画ヒューリスティック機能プログラムをサンプリングすることでLLMの計画能力を大幅に改善できることを示しています。
要約(オリジナル)
In recent years, large language models (LLMs) have shown remarkable capabilities in various artificial intelligence problems. However, they fail to plan reliably, even when prompted with a detailed definition of the planning task. Attempts to improve their planning capabilities, such as chain-of-thought prompting, fine-tuning, and explicit ‘reasoning’ still yield incorrect plans and usually fail to generalize to larger tasks. In this paper, we show how to use LLMs to generate correct plans, even for out-of-distribution tasks of increasing size. For a given planning domain, we ask an LLM to generate several domain-dependent heuristic functions in the form of Python code, evaluate them on a set of training tasks within a greedy best-first search, and choose the strongest one. The resulting LLM-generated heuristics solve many more unseen test tasks than state-of-the-art domain-independent heuristics for classical planning. They are even competitive with the strongest learning algorithm for domain-dependent planning. These findings are especially remarkable given that our proof-of-concept implementation is based on an unoptimized Python planner and the baselines all build upon highly optimized C++ code. In some domains, the LLM-generated heuristics expand fewer states than the baselines, revealing that they are not only efficiently computable, but sometimes even more informative than the state-of-the-art heuristics. Overall, our results show that sampling a set of planning heuristic function programs can significantly improve the planning capabilities of LLMs.
arxiv情報
著者 | Augusto B. Corrêa,André G. Pereira,Jendrik Seipp |
発行日 | 2025-03-24 15:50:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google