要約
テスト時間スケーリングは、推論時により多くの計算を利用することにより、LLMの推論を改善するための有望なパスを提供します。
ただし、このパラダイムの真の約束は、外挿にあります(つまり、LLMが訓練された最大トークン予算を超えて、LLMがより長く「考え続ける」ため、困難な問題のパフォーマンスの改善)。
驚くべきことに、ほとんどの既存の推論モデルは十分に外挿していないことがわかります。
外挿を有効にする1つの方法は、LLMをトレーニングしてコンテキスト内探索を実行することであることを示します。LLMをトレーニングして、操作(生成、検証、洗練など)をチェーンすることでテスト時間を効果的に費やすか、回答にコミットする前に複数の仮説をテストすることです。
コンテキスト内探索を有効にするために、レシピE3の一部として3つの重要な成分を特定します。(1)ベースLLMが非対称の能力を持っている、たとえば、生成(ハード)とのチェーン検証(ハード)を、コンテキスト内検索を実装する方法として、チェーンスキルを識別します。
(2)RL中の探査を増幅するために誤ったトレースから「負」の勾配を活用し、追加の非対称性を連鎖させるより長い検索トレースをもたらします。
(3)具体的に設計されたカリキュラムを介したトレーニング中のトークン予算のトレーニングの難しさを結合して、コンテキスト内探査を構築します。
私たちのレシピE3は、AIME’25およびHMMT’25スコアに従って最もよく知られている1.7Bモデルを生成し、トレーニングトークン予算を2倍に挿入します。
E3-1.7Bモデルは、ハイパス@1スコアを達成するだけでなく、ベースモデルでパス@Kを改善します。
要約(オリジナル)
Test-time scaling offers a promising path to improve LLM reasoning by utilizing more compute at inference time; however, the true promise of this paradigm lies in extrapolation (i.e., improvement in performance on hard problems as LLMs keep ‘thinking’ for longer, beyond the maximum token budget they were trained on). Surprisingly, we find that most existing reasoning models do not extrapolate well. We show that one way to enable extrapolation is by training the LLM to perform in-context exploration: training the LLM to effectively spend its test time budget by chaining operations (such as generation, verification, refinement, etc.), or testing multiple hypotheses before it commits to an answer. To enable in-context exploration, we identify three key ingredients as part of our recipe e3: (1) chaining skills that the base LLM has asymmetric competence in, e.g., chaining verification (easy) with generation (hard), as a way to implement in-context search; (2) leveraging ‘negative’ gradients from incorrect traces to amplify exploration during RL, resulting in longer search traces that chains additional asymmetries; and (3) coupling task difficulty with training token budget during training via a specifically-designed curriculum to structure in-context exploration. Our recipe e3 produces the best known 1.7B model according to AIME’25 and HMMT’25 scores, and extrapolates to 2x the training token budget. Our e3-1.7B model not only attains high pass@1 scores, but also improves pass@k over the base model.
arxiv情報
著者 | Amrith Setlur,Matthew Y. R. Yang,Charlie Snell,Jeremy Greer,Ian Wu,Virginia Smith,Max Simchowitz,Aviral Kumar |
発行日 | 2025-06-13 17:44:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google