FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

要約

トレーニング効率を改善することは、大規模な強化学習における最も重要な課題の1つです。
この論文では、モデルのコンテキストの長さとトレーニングデータセットの複雑さが、R1様モデルのトレーニングプロセスにどのように影響するかを調査します。
私たちの実験では、3つの重要な洞察が明らかになりました。(1)より長いコンテキストの長さを採用すると、必ずしもパフォーマンスが向上するとは限りません。
(2)適切なコンテキストの長さを選択すると、エントロピー崩壊を軽減するのに役立ちます。
(3)モデルのコンテキストの長さを適切に制御し、入力プロンプトの長さに基づいてトレーニングデータをキュレーションすると、RLトレーニング効率を効果的に改善し、より短い思考長でパフォーマンスを向上させることができます。
これらの洞察に触発されて、私たちは、プログレッシブコンテキスト拡張戦略を備えたカリキュラム強化学習フレームワークであるFastCurlを提案し、RLモデルのトレーニングプロセスを成功裏に加速します。
実験結果は、FastCurl-1.5B-Previewが5つのベンチマークすべてにわたってDeepscaler-1.5B-Previewを超えていることを示していますが、トレーニングステップの50 \%のみを利用しています。
さらに、FastCurl-1.5B-Previewのすべてのトレーニング段階は、8 GPUの単一ノードを使用して完了します。

要約(オリジナル)

Improving the training efficiency remains one of the most significant challenges in large-scale reinforcement learning. In this paper, we investigate how the model’s context length and the complexity of the training dataset influence the training process of R1-like models. Our experiments reveal three key insights: (1) adopting longer context lengths may not necessarily result in better performance; (2) selecting an appropriate context length helps mitigate entropy collapse; and (3) appropriately controlling the model’s context length and curating training data based on input prompt length can effectively improve RL training efficiency, achieving better performance with shorter thinking length. Inspired by these insights, we propose FastCuRL, a curriculum reinforcement learning framework with the progressive context extension strategy, and successfully accelerate the training process of RL models. Experimental results demonstrate that FastCuRL-1.5B-Preview surpasses DeepScaleR-1.5B-Preview across all five benchmarks while only utilizing 50\% of training steps. Furthermore, all training stages for FastCuRL-1.5B-Preview are completed using a single node with 8 GPUs.

arxiv情報

著者 Mingyang Song,Mao Zheng,Zheng Li,Wenjie Yang,Xuan Luo,Yue Pan,Feng Zhang
発行日 2025-04-16 15:39:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク