要約
推論中心の言語モデルの最近の進歩により、強化学習(RL)は、検証可能な報酬を備えたモデルを整合するための有望な方法として強調されています。
ただし、RLがモデルの推論機能を真に拡大するのか、単に基本モデルの分布ですでに潜在的な高報酬出力を増幅するかどうか、およびRLの計算が確実に推論パフォーマンスの改善につながるかどうかは、単に高報酬の出力を単に増幅するかどうかは論争の余地があります。
この作業では、長期にわたるRL(PRORL)トレーニングが、広範なサンプリング中であっても、ベースモデルにはアクセスできない新しい推論戦略を明らかにすることができることを実証することにより、一般的な仮定に挑戦します。
KL Divergence Control、参照ポリシーのリセット、および多様なタスクスイートを組み込んだ新しいトレーニング方法論であるProrlを紹介します。
経験的分析により、RLトレーニングモデルは、試行回数に関係なくベースモデルが完全に失敗するシナリオを含む、広範囲のパス@K評価でベースモデルを一貫して上回ることが明らかになりました。
さらに、推論境界の改善が基本モデルのタスク能力とトレーニング期間のタスク能力と強く相関していることを示し、RLがソリューションスペースの新しい領域を長期にわたって探索して埋めることができることを示唆しています。
これらの調査結果は、RLが言語モデルの推論境界を有意に拡大し、推論のために将来の作業の基盤を確立する条件に関する新しい洞察を提供します。
さらなる研究をサポートするためにモデルの重みをリリースします:https://huggingface.co/nvidia/nemotron-research-rasinoning-qwen-1.5b
要約(オリジナル)
Recent advances in reasoning-centric language models have highlighted reinforcement learning (RL) as a promising method for aligning models with verifiable rewards. However, it remains contentious whether RL truly expands a model’s reasoning capabilities or merely amplifies high-reward outputs already latent in the base model’s distribution, and whether continually scaling up RL compute reliably leads to improved reasoning performance. In this work, we challenge prevailing assumptions by demonstrating that prolonged RL (ProRL) training can uncover novel reasoning strategies that are inaccessible to base models, even under extensive sampling. We introduce ProRL, a novel training methodology that incorporates KL divergence control, reference policy resetting, and a diverse suite of tasks. Our empirical analysis reveals that RL-trained models consistently outperform base models across a wide range of pass@k evaluations, including scenarios where base models fail entirely regardless of the number of attempts. We further show that reasoning boundary improvements correlates strongly with task competence of base model and training duration, suggesting that RL can explore and populate new regions of solution space over time. These findings offer new insights into the conditions under which RL meaningfully expands reasoning boundaries in language models and establish a foundation for future work on long-horizon RL for reasoning. We release model weights to support further research: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
arxiv情報
著者 | Mingjie Liu,Shizhe Diao,Ximing Lu,Jian Hu,Xin Dong,Yejin Choi,Jan Kautz,Yi Dong |
発行日 | 2025-05-30 17:59:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google