Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

要約

このペーパーでは、モデル、データ、コードがすべてリリースされたLight-R1シリーズに関する作業を紹介します。
まず、長いCOTモデルをゼロからトレーニングすることに焦点を当てています。特に、最初は長いCOT機能を欠いているモデルから始まります。
2段階のSFTとセミポリティDPOで構成されるカリキュラムトレーニングレシピを使用して、QWEN2.5-32B-instructからモデルLight-R1-32Bをトレーニングし、DeepSeek-R1-Distill-QWen-32Bと比較して優れた数学のパフォーマンスをもたらします。
数学データのみで訓練されているにもかかわらず、Light-R1-32Bは他のドメイン全体で強い一般化を示しています。
この作業の後続のフェーズでは、他のモデルを強化するために2番目のSFTステージに構築された3Kデータセットの大きな利点を強調します。
このデータセットを使用してDeepSeek-R1-DISTILLモデルを微調整することにより、7Bおよび14Bで新しいSOTAモデルを取得し、32BモデルであるLight-R1-32B-DSはQWQ-32BおよびDeepSeek-R1と同等に実行されました。
さらに、推論のパフォーマンスをさらに向上させるために、補強学習、特にGRPOをロングコットモデルに適用することにより、作業を拡張します。
RLで最終的なLight-R1-14B-DSを正常にトレーニングし、数学の14BパラメーターモデルでSOTAパフォーマンスを達成しました。
それぞれ74.0と60.2のAIME24と25のスコアを使用すると、Light-R1-14B-DSは多くの32BモデルとDeepSeek-R1-Distill-llama-70Bを超えています。
また、RLトレーニングは予想される行動を示し、応答長と報酬スコアの同時増加を示します。
Light-R1シリーズの作業は、トレーニングのロングコットモデルをゼロから検証し、SFTデータのアートを紹介し、RLからSOTAモデルをリリースします。

要約(オリジナル)

This paper presents our work on the Light-R1 series, with models, data, and code all released. We first focus on training long COT models from scratch, specifically starting from models initially lacking long COT capabilities. Using a curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO, we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains. In the subsequent phase of this work, we highlight the significant benefit of the 3k dataset constructed for the second SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled models using this dataset, we obtain new SOTA models in 7B and 14B, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying reinforcement learning, specifically GRPO, on long-COT models to further improve reasoning performance. We successfully train our final Light-R1-14B-DS with RL, achieving SOTA performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0 and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected behavior, showing simultaneous increase in response length and reward score. The Light-R1 series of work validates training long-COT models from scratch, showcases the art in SFT data and releases SOTA models from RL.

arxiv情報

著者 Liang Wen,Yunke Cai,Fenrui Xiao,Xin He,Qi An,Zhenyu Duan,Yimin Du,Junchen Liu,Lifu Tang,Xiaowei Lv,Haosheng Zou,Yongchao Deng,Shousheng Jia,Xiangzheng Zhang
発行日 2025-03-13 15:29:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク