要約
強化学習(RL)ベースの微調整は、高度な数学的推論とコーディングのためのトレーニング後の言語モデルの重要なステップとなっています。
フロンティアの推論モデルの成功に続いて、最近の研究により、RLの微調整は、小規模なモデルであってもパフォーマンスを一貫して改善することが実証されています。
ただし、これらの改善を促進する根本的なメカニズムは十分に理解されていません。
RL微調整の効果を理解するには、事前のデータ構成、ハイパーパラメーター、およびモデルスケールとの相互作用を解き放つ必要がありますが、そのような問題は、多くの既存のモデルで使用されるトレーニングデータに関する透明性の欠如によって悪化します。
この作業では、完全に開いたデータセットのさまざまな混合物で完全にモデルをゼロからトレーニングすることにより、数学的推論のためのRL微調整の体系的なエンドツーエンドの研究を提示します。
さまざまなスケールのモデル全体で、さまざまなRL微調整アルゴリズム(PPO、GRPO、および専門家の反復)の効果を調査します。
私たちの研究では、RLアルゴリズムが一貫して支配的な出力分布に収束し、前削除データのパターンを増幅することが明らかになりました。
また、同じデータ混合物でトレーニングされた異なるスケールのモデルが異なる出力分布に収束し、モデルの一般化にスケール依存のバイアスがあることを示唆していることがわかります。
さらに、より単純な質問に関するRL後のトレーニングは、より難しい質問のパフォーマンスの向上につながる可能性があることがわかり、特定の推論能力がタスク全体で一般化されていることを示しています。
私たちの調査結果は、制御された設定における小規模なプロキシが、言語モデルの動作を形作る際のRLの役割に関する興味深い洞察を引き出すことができることを示しています。
要約(オリジナル)
Reinforcement learning (RL)-based fine-tuning has become a crucial step in post-training language models for advanced mathematical reasoning and coding. Following the success of frontier reasoning models, recent work has demonstrated that RL fine-tuning consistently improves performance, even in smaller-scale models; however, the underlying mechanisms driving these improvements are not well-understood. Understanding the effects of RL fine-tuning requires disentangling its interaction with pretraining data composition, hyperparameters, and model scale, but such problems are exacerbated by the lack of transparency regarding the training data used in many existing models. In this work, we present a systematic end-to-end study of RL fine-tuning for mathematical reasoning by training models entirely from scratch on different mixtures of fully open datasets. We investigate the effects of various RL fine-tuning algorithms (PPO, GRPO, and Expert Iteration) across models of different scales. Our study reveals that RL algorithms consistently converge towards a dominant output distribution, amplifying patterns in the pretraining data. We also find that models of different scales trained on the same data mixture will converge to distinct output distributions, suggesting that there are scale-dependent biases in model generalization. Moreover, we find that RL post-training on simpler questions can lead to performance gains on harder ones, indicating that certain reasoning capabilities generalize across tasks. Our findings show that small-scale proxies in controlled settings can elicit interesting insights regarding the role of RL in shaping language model behavior.
arxiv情報
著者 | Rosie Zhao,Alexandru Meterez,Sham Kakade,Cengiz Pehlevan,Samy Jelassi,Eran Malach |
発行日 | 2025-04-10 17:15:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google