要約
複雑な計画タスクの大規模な言語モデル(LLM)を強化することを検討します。
既存の方法により、LLMは中間の手順を探索して計画を立てることができますが、これらの手順を評価するための信頼性の低い自己検証または外部検証因子に依存して、重要なデータと計算を必要とします。
ここでは、LLMSが推論時間検索をガイドし、中間状態の正確な評価を可能にするためのヒューリスティック関数を明示的に生成できるようにする新しいアプローチである、自動ヒューリスティック発見(AutoHD)を提案します。
これらのヒューリスティックな機能は、ヒューリスティックな進化プロセスを通じてさらに洗練され、堅牢性と有効性を改善します。
提案された方法では、追加のモデルトレーニングや微調整は必要ありません。LLMSによって生成されたヒューリスティック機能の明示的な定義は、推論プロセスの解釈可能性と洞察を提供します。
多様なベンチマーク全体の広範な実験は、一部のデータセットのほぼ2倍の精度を含む複数のベースラインにわたって大幅な利益を示し、複雑な計画タスクの信頼できる解釈可能なソリューションとしてのアプローチを確立します。
要約(オリジナル)
We consider enhancing large language models (LLMs) for complex planning tasks. While existing methods allow LLMs to explore intermediate steps to make plans, they either depend on unreliable self-verification or external verifiers to evaluate these steps, which demand significant data and computations. Here, we propose automated heuristics discovery (AutoHD), a novel approach that enables LLMs to explicitly generate heuristic functions to guide inference-time search, allowing accurate evaluation of intermediate states. These heuristic functions are further refined through a heuristic evolution process, improving their robustness and effectiveness. Our proposed method requires no additional model training or fine-tuning, and the explicit definition of heuristic functions generated by the LLMs provides interpretability and insights into the reasoning process. Extensive experiments across diverse benchmarks demonstrate significant gains over multiple baselines, including nearly twice the accuracy on some datasets, establishing our approach as a reliable and interpretable solution for complex planning tasks.
arxiv情報
著者 | Hongyi Ling,Shubham Parashar,Sambhav Khurana,Blake Olson,Anwesha Basu,Gaurangi Sinha,Zhengzhong Tu,James Caverlee,Shuiwang Ji |
発行日 | 2025-02-26 16:52:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google