Optimizing Anytime Reasoning via Budget Relative Policy Optimization

要約

スケーリングテスト時間計算は、大規模な言語モデル(LLM)の推論機能を強化するために重要です。
既存のアプローチでは、通常、強化学習(RL)を採用して、推論痕跡の最後に得られた検証可能な報酬を最大化します。
ただし、このような方法は、トレーニングと展開の両方の効率を妨げる大規模で固定されたトークン予算の下での最終パフォーマンスのみを最適化します。
この作業では、トークンの効率とさまざまなトークン予算の制約の下で推論の柔軟性を改善することを目的とする、いつでも推論パフォーマンスを最適化するための新しいフレームワーク、Anytimereasonerを提示します。
これを達成するために、完全な分布からサンプリングされたトークン予算内に収まるように完全な思考プロセスを切り捨て、モデルに検証のために切り捨てられた各思考の最適な答えを要約するように強制します。
これにより、検証可能な密な報酬が推論プロセスに導入され、RL最適化におけるより効果的なクレジット割り当てが促進されます。
次に、累積的な報酬を最大化するために、分離された方法で思考と概要のポリシーを最適化します。
さらに、思考ポリシーを強化する際の学習プロセスの堅牢性と効率を高めるために、新しい分散削減手法である予算相対ポリシー最適化(BRPO)を導入します。
数学的推論タスクにおける経験的結果は、私たちの方法が、さまざまな事前分布の下ですべての思考予算でGRPOを一貫して上回り、トレーニングとトークンの効率を高めることを示しています。

要約(オリジナル)

Scaling test-time compute is crucial for enhancing the reasoning capabilities of large language models (LLMs). Existing approaches typically employ reinforcement learning (RL) to maximize a verifiable reward obtained at the end of reasoning traces. However, such methods optimize only the final performance under a large and fixed token budget, which hinders efficiency in both training and deployment. In this work, we present a novel framework, AnytimeReasoner, to optimize anytime reasoning performance, which aims to improve token efficiency and the flexibility of reasoning under varying token budget constraints. To achieve this, we truncate the complete thinking process to fit within sampled token budgets from a prior distribution, compelling the model to summarize the optimal answer for each truncated thinking for verification. This introduces verifiable dense rewards into the reasoning process, facilitating more effective credit assignment in RL optimization. We then optimize the thinking and summary policies in a decoupled manner to maximize the cumulative reward. Additionally, we introduce a novel variance reduction technique, Budget Relative Policy Optimization (BRPO), to enhance the robustness and efficiency of the learning process when reinforcing the thinking policy. Empirical results in mathematical reasoning tasks demonstrate that our method consistently outperforms GRPO across all thinking budgets under various prior distributions, enhancing both training and token efficiency.

arxiv情報

著者 Penghui Qi,Zichen Liu,Tianyu Pang,Chao Du,Wee Sun Lee,Min Lin
発行日 2025-05-19 17:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク