要約
この作業では、大規模な言語モデルと強化学習(RL)の新しいスケーリングパラダイムとして、強化前トレーニング(RPT)を導入します。
具体的には、RLを使用してトレーニングされた推論タスクとして次のトークン予測を再構成します。ここでは、特定のコンテキストの次のトークンを正しく予測するための検証可能な報酬を受け取ります。
RPTは、ドメイン固有の注釈付き回答に依存するのではなく、汎用RLの膨大な量のテキストデータを活用するためのスケーラブルな方法を提供します。
次のトークン推論の能力を奨励することにより、RPTは次のトークンを予測する言語モデリングの精度を大幅に向上させます。
さらに、RPTは、さらなる強化微調整のための強力な事前訓練を受けた基盤を提供します。
スケーリング曲線は、トレーニングの増加が一貫して次のトークン予測精度を改善することを示しています。
結果は、言語モデルの事前トレーニングを進めるための効果的で有望なスケーリングパラダイムとしてRPTを位置付けています。
要約(オリジナル)
In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling paradigm for large language models and reinforcement learning (RL). Specifically, we reframe next-token prediction as a reasoning task trained using RL, where it receives verifiable rewards for correctly predicting the next token for a given context. RPT offers a scalable method to leverage vast amounts of text data for general-purpose RL, rather than relying on domain-specific annotated answers. By incentivizing the capability of next-token reasoning, RPT significantly improves the language modeling accuracy of predicting the next tokens. Moreover, RPT provides a strong pre-trained foundation for further reinforcement fine-tuning. The scaling curves show that increased training compute consistently improves the next-token prediction accuracy. The results position RPT as an effective and promising scaling paradigm to advance language model pre-training.
arxiv情報
著者 | Qingxiu Dong,Li Dong,Yao Tang,Tianzhu Ye,Yutao Sun,Zhifang Sui,Furu Wei |
発行日 | 2025-06-09 17:59:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google