Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

要約

テスト時間計算を効果的に使用するトレーニングモデルは、LLMSの推論パフォーマンスを改善するために重要です。
現在の方法は、検索トレースでの微調整または0/1の結果報酬でRLを実行することにより、主にそうしますが、これらのアプローチはテスト時間計算を効率的に利用していますか?
これらのアプローチは、予算が改善するにつれて拡大し続けますか?
この論文では、これらの質問に答えようとします。
テスト時間計算を最適化する問題を正式に形式化します。これは、テスト時間計算の原則的な視点を提供するメタ補強学習(RL)問題です。
この視点により、テスト時に実行されるいくつかのエピソードで構成されるLLMからの長い出力ストリームを表示することができ、テスト時間計算の有効性を測定する方法として、出力トークンに対する累積後悔の概念を使用するようになります。
RLアルゴリズムがトレーニングよりもトレードオフの探索と搾取を最適にする方法と同様に、累積的な後悔を最小限に抑えることで、トークンストリームでの探索と搾取の最良のバランスが得られます。
最先端のモデルが後悔を最小限に抑えないことを示しますが、結果0/1報酬RLと併せて密な報酬ボーナスを最大化することでそうすることができます。
このボーナスは、出力ストリームの後続の各ブロックによって作成された「進行状況」であり、最終的な成功の可能性の変化によって定量化されます。
これらの洞察を使用して、テスト時間計算を最適化するための新しいクラスの微調整方法であるMETA補強微調整(MRT)を開発します。
MRTは、パフォーマンスが2〜3倍の相対的な増加をもたらし、結果のRLと比較して数学の推論でトークン効率の約1.5倍の増加をもたらします。

要約(オリジナル)

Training models to effectively use test-time compute is crucial for improving the reasoning performance of LLMs. Current methods mostly do so via fine-tuning on search traces or running RL with 0/1 outcome reward, but do these approaches efficiently utilize test-time compute? Would these approaches continue to scale as the budget improves? In this paper, we try to answer these questions. We formalize the problem of optimizing test-time compute as a meta-reinforcement learning (RL) problem, which provides a principled perspective on spending test-time compute. This perspective enables us to view the long output stream from the LLM as consisting of several episodes run at test time and leads us to use a notion of cumulative regret over output tokens as a way to measure the efficacy of test-time compute. Akin to how RL algorithms can best tradeoff exploration and exploitation over training, minimizing cumulative regret would also provide the best balance between exploration and exploitation in the token stream. While we show that state-of-the-art models do not minimize regret, one can do so by maximizing a dense reward bonus in conjunction with the outcome 0/1 reward RL. This bonus is the ”progress” made by each subsequent block in the output stream, quantified by the change in the likelihood of eventual success. Using these insights, we develop Meta Reinforcement Fine-Tuning, or MRT, a new class of fine-tuning methods for optimizing test-time compute. MRT leads to a 2-3x relative gain in performance and roughly a 1.5x gain in token efficiency for math reasoning compared to outcome-reward RL.

arxiv情報

著者 Yuxiao Qu,Matthew Y. R. Yang,Amrith Setlur,Lewis Tunstall,Edward Emanuel Beeching,Ruslan Salakhutdinov,Aviral Kumar
発行日 2025-03-10 17:40:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク