要約
推論のための大規模な強化学習(RL)の最近の進歩にもかかわらず、高性能の推論モデルを構築するためのトレーニングレシピはとらえどころのないままです。
データキュレーション戦略やRLトレーニングレシピなど、Deepseek-R1などのフロンティアモデルの主要な実装の詳細は、しばしば省略されています。
さらに、最近の研究では、小規模なモデルのRLよりも蒸留が依然として効果的であることが示されています。
この作業では、大規模なRLが強力な、中小サイズのモデルの推論能力を大幅に強化し、最先端の蒸留ベースのモデルの結果を上回る結果を達成できることを実証します。
広範なアブレーションを通じてRLトレーニングプロセスを体系的に研究し、シンプルでありながら効果的なアプローチを提案します。数学のみのプロンプト、次にコードのみのプロンプトに関する最初のトレーニングです。
特に、数学のみのRLが、数学ベンチマークでの強力な蒸留モデルのパフォーマンスを大幅に向上させるだけでなく、7B / 14BモデルのAIME 2025で +14.6% / +17.2%)だけでなく、7B / 14Bモデルのリベコーブベンチでは +6.8% / +5.8%)。
さらに、拡張コードのみのRL反復は、数学の結果に最小限または分解なしでコードベンチマークのパフォーマンスをさらに改善します。
堅牢なデータキュレーションパイプラインを開発して、高品質で検証可能な回答とテストケースを備えた挑戦的なプロンプトを収集して、両方のドメインで検証ベースのRLを有効にします。
最後に、応答の長さが徐々に増加するカリキュラム学習や、ポリシー上のパラメーターの更新の安定化効果など、重要な実験的洞察を特定します。
RLは、事前削除および監視された微調整(例:蒸留)中に取得した基本的な推論能力を引き出すだけでなく、モデルの推論能力の限界を押し広げ、以前に解決できなかった問題を解決できるようにすることがわかります。
要約(オリジナル)
Despite recent progress in large-scale reinforcement learning (RL) for reasoning, the training recipe for building high-performing reasoning models remains elusive. Key implementation details of frontier models, such as DeepSeek-R1, including data curation strategies and RL training recipe, are often omitted. Moreover, recent research indicates distillation remains more effective than RL for smaller models. In this work, we demonstrate that large-scale RL can significantly enhance the reasoning capabilities of strong, small- and mid-sized models, achieving results that surpass those of state-of-the-art distillation-based models. We systematically study the RL training process through extensive ablations and propose a simple yet effective approach: first training on math-only prompts, then on code-only prompts. Notably, we find that math-only RL not only significantly enhances the performance of strong distilled models on math benchmarks (e.g., +14.6% / +17.2% on AIME 2025 for the 7B / 14B models), but also code reasoning tasks (e.g., +6.8% / +5.8% on LiveCodeBench for the 7B / 14B models). In addition, extended code-only RL iterations further improve performance on code benchmarks with minimal or no degradation in math results. We develop a robust data curation pipeline to collect challenging prompts with high-quality, verifiable answers and test cases to enable verification-based RL across both domains. Finally, we identify key experimental insights, including curriculum learning with progressively increasing response lengths and the stabilizing effect of on-policy parameter updates. We find that RL not only elicits the foundational reasoning capabilities acquired during pretraining and supervised fine-tuning (e.g., distillation), but also pushes the limits of the model’s reasoning ability, enabling it to solve problems that were previously unsolvable.
arxiv情報
| 著者 | Yang Chen,Zhuolin Yang,Zihan Liu,Chankyu Lee,Peng Xu,Mohammad Shoeybi,Bryan Catanzaro,Wei Ping |
| 発行日 | 2025-06-05 17:59:12+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google