要約
大規模な言語モデル(LLMS)は、多くの場合、問題解決を検索プロセスとしてフレーミングすることにより、テスト時間計算の増加により、推論と計画の顕著な改善を実証しています。
モンテカルロツリー検索(MCTS)のような方法はいくつかのドメインで効果的であることが証明されていますが、固定探査ハイパーパラメータへの依存により、さまざまな難易度のタスク全体に適応性が制限され、特定の設定では非実用的または高価になります。
この論文では、\ textbf {llm-first search(lfs)}を提案します。これは、自己誘導探索を介して検索プロセスを自律的に制御できるように、事前定義された検索戦略の必要性を削除する、新しい\ textit {llm self-gided search}メソッドです。
LLMは、外部のヒューリスティックまたはハードコードされたポリシーに依存するのではなく、現在の検索パスを追求するか、内部スコアリングメカニズムに基づいて代替ブランチを探索するかを評価します。
これにより、手動のチューニングやタスク固有の適応を必要とせずに、より柔軟でコンテキストに敏感な推論が可能になります。
カウントダウンのLFSを、3つのクラシックに広く使用されている検索アルゴリズム、ツリーオブオブセーブの幅の最初の検索(TOT-BFS)、ベストファースト検索(BESTFS)、およびMCTに対してLFSを評価します。これらは、それぞれが、困難な推論の範囲でSOTA結果を達成するために使用されています。
LFS(1)は、追加のチューニングなしでより挑戦的なタスクでパフォーマンスを向上させることがわかりました。(2)他のメソッドと比較して、特に強力なモデルで駆動される場合、(3)LLMファーストデザインのため、より強力なモデルでより良いスケーリングを行うことがわかりました。
私たちのコードは、\ href {https://github.com/nathanherr/llm-first-search} {llm-first-search}で公開されています。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable improvements in reasoning and planning through increased test-time compute, often by framing problem-solving as a search process. While methods like Monte Carlo Tree Search (MCTS) have proven effective in some domains, their reliance on fixed exploration hyperparameters limits their adaptability across tasks of varying difficulty, rendering them impractical or expensive in certain settings. In this paper, we propose \textbf{LLM-First Search (LFS)}, a novel \textit{LLM Self-Guided Search} method that removes the need for pre-defined search strategies by empowering the LLM to autonomously control the search process via self-guided exploration. Rather than relying on external heuristics or hardcoded policies, the LLM evaluates whether to pursue the current search path or explore alternative branches based on its internal scoring mechanisms. This enables more flexible and context-sensitive reasoning without requiring manual tuning or task-specific adaptation. We evaluate LFS on Countdown and Sudoku against three classic widely-used search algorithms, Tree-of-Thoughts’ Breadth First Search (ToT-BFS), Best First Search (BestFS), and MCTS, each of which have been used to achieve SotA results on a range of challenging reasoning tasks. We found that LFS (1) performs better on more challenging tasks without additional tuning, (2) is more computationally efficient compared to the other methods, especially when powered by a stronger model, (3) scales better with stronger models, due to its LLM-First design, and (4) scales better with increased compute budget. Our code is publicly available at \href{https://github.com/NathanHerr/LLM-First-Search}{LLM-First-Search}.
arxiv情報
| 著者 | Nathan Herr,Tim Rocktäschel,Roberta Raileanu |
| 発行日 | 2025-06-05 16:27:49+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google