To Backtrack or Not to Backtrack: When Sequential Search Limits Model Reasoning

要約

大規模な言語モデルの最近の進歩により、特に検索とバックトラッキングを含む技術を通じて、推論能力が大幅に改善されました。
バックトラッキングは、長い考え方(COT)生成を介して連続した線形化された探索を有効にすることにより、テスト時間計算を自然にスケールします。
ただし、これはテスト時間計算をスケーリングするための唯一の戦略ではありません。Best-n-n Selectionとの並列サンプリングは、多様なソリューションを同時に生成する代替手段を提供します。
順次検索の採用が増えているにもかかわらず、特に固定された計算予算の下での並列サンプリングに対するその利点は、あまり理解されていません。
この論文では、これら2つのアプローチを、CountdownとSudokuという2つの挑戦的な推論タスクで体系的に比較します。
驚くべきことに、シーケンシャル検索はカウントダウンでの並行サンプリングを下回っているが、スノクでそれを上回ることができることがわかり、バックトラッキングは普遍的に有益ではないことを示唆しています。
バックトラッキングを引き起こす可能性のある2つの要因を特定します。(1)固定検索トレースのトレーニングは、モデルを最適ではない戦略にロックでき、(2)明示的なCOT監督は「暗黙的」(非言語化)推論を阻止できます。
分析を補強学習(RL)に拡張すると、バックトラッキング機能を備えたモデルがRL微調整から大幅に利益をもたらし、バックトラッキングのないモデルが限られた混合ゲインを参照していることを示しています。
一緒に、これらの調査結果は、バックトラックが普遍的にLLMの推論を強化し、代わりにタスク構造、トレーニングデータ、モデルスケール、学習パラダイムの間の複雑な相互作用を明らかにするという仮定に挑戦します。

要約(オリジナル)

Recent advancements in large language models have significantly improved their reasoning abilities, particularly through techniques involving search and backtracking. Backtracking naturally scales test-time compute by enabling sequential, linearized exploration via long chain-of-thought (CoT) generation. However, this is not the only strategy for scaling test-time compute: parallel sampling with best-of-n selection provides an alternative that generates diverse solutions simultaneously. Despite the growing adoption of sequential search, its advantages over parallel sampling–especially under a fixed compute budget remain poorly understood. In this paper, we systematically compare these two approaches on two challenging reasoning tasks: CountDown and Sudoku. Surprisingly, we find that sequential search underperforms parallel sampling on CountDown but outperforms it on Sudoku, suggesting that backtracking is not universally beneficial. We identify two factors that can cause backtracking to degrade performance: (1) training on fixed search traces can lock models into suboptimal strategies, and (2) explicit CoT supervision can discourage ‘implicit’ (non-verbalized) reasoning. Extending our analysis to reinforcement learning (RL), we show that models with backtracking capabilities benefit significantly from RL fine-tuning, while models without backtracking see limited, mixed gains. Together, these findings challenge the assumption that backtracking universally enhances LLM reasoning, instead revealing a complex interaction between task structure, training data, model scale, and learning paradigm.

arxiv情報

著者 Tian Qin,David Alvarez-Melis,Samy Jelassi,Eran Malach
発行日 2025-04-09 17:12:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク