SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning

要約

検証可能な報酬に対して強化学習(RL)で大規模な言語モデルをトレーニングすることは、推論能力を大幅に向上させますが、非効率的な均一な迅速なサンプリングのために計算上高価なままです。
難易度(速度)の効率的な推定(速度)で選択的プロンプトを導入します。これは、学習効率を最大化するために中間難易度のトレーニング例を選択的に選択する適応的なオンラインRLカリキュラムを選択します。
理論的には、中程度の困難なプロンプトが勾配推定器の信号対雑音比を改善し、収束を加速することを確立します。
経験的に、当社の効率的な実装は、精度を低下させることなく2倍から6倍のトレーニングにつながり、手動チューニングを必要とせず、標準のRLアルゴリズムにシームレスに統合します。

要約(オリジナル)

Training large language models with reinforcement learning (RL) against verifiable rewards significantly enhances their reasoning abilities, yet remains computationally expensive due to inefficient uniform prompt sampling. We introduce Selective Prompting with Efficient Estimation of Difficulty (SPEED), an adaptive online RL curriculum that selectively chooses training examples of intermediate difficulty to maximize learning efficiency. Theoretically, we establish that intermediate-difficulty prompts improve the gradient estimator’s signal-to-noise ratio, accelerating convergence. Empirically, our efficient implementation leads to 2x to 6x faster training without degrading accuracy, requires no manual tuning, and integrates seamlessly into standard RL algorithms.

arxiv情報

著者 Ruiqi Zhang,Daman Arora,Song Mei,Andrea Zanette
発行日 2025-06-10 17:42:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク