Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

要約

このペーパーでは、再現可能で費用対効果の高い方法論を使用して長い推論モデルをトレーニングするためのオープンソーススイートであるLight-R1を紹介します。
DeepSeek-R1シリーズで使用されるデータの独自の性質を考えると、パブリックデータとモデルのみを活用する代替アプローチを開発します。
カリキュラムのトレーニングは、データの難易度を徐々に増加させ、トレーニング後のマルチステージと組み合わせています。
QWEN2.5-32B-Instructから訓練されたLight-R1-32Bモデルは、数学の推論でdeepseek-r1-distill-qwen-32bよりも優れています。
実験結果は、このカリキュラムアプローチが異なるトレーニング段階で異なる多様なデータセットが利用可能になった場合、より効果的になることを示しています:微調整deepseek-r1-distilledモデル(独自のデータに関するディープセックチームによって事前に調整された)は、3,000の挑戦的な例で、最先端の7bモデルと14Bモデルをパフォーマンスした14Bモデル、14Bモデル、14Bモデル、14Bモデル、14Bモデル、
QWQ-32BおよびDeepSeek-R1。
さらに、長い推論モデルにGRPOを適用することにより、作業を拡張します。
最終的なLight-R1-14B-DSは、MATHの14BモデルでSOTAパフォーマンスを達成し、それぞれ74.0および60.2のAIME24 \&25スコアで、多くの32BモデルとDeepSeek-R1-Distill-Lalama-70Bを上回ります。
数学に焦点を当てたトレーニングにもかかわらず、Light-R1-14B-DSは強力なクロスドメインの一般化を示しています。
Light-R1は、洗練された推論モデルを実際のアプリケーションでよりアクセスしやすく実装可能にすることにおける重要な進歩を表しています。
私たちのモデル、トレーニングデータ、およびコードは、https://github.com/qihoo360/light-r1で利用可能になりました。

要約(オリジナル)

This paper introduces Light-R1, an open-source suite for training long reasoning models using reproducible and cost-effective methodology. Given the proprietary nature of data used in the DeepSeek-R1 series, we develop an alternative approach leveraging exclusively public data and models. Our curriculum training progressively increases data difficulty, combined with multi-staged post-training. Our Light-R1-32B model, trained from Qwen2.5-32B-Instruct, outperforms DeepSeek-R1-Distill-Qwen-32B in math reasoning. Experimental results show that this curriculum approach becomes more effective when distinct, diverse datasets are available for different training stages: fine-tuning DeepSeek-R1-Distilled models (pre-tuned by DeepSeek team on proprietary data) with 3,000 challenging examples from our curriculum dataset yielded state-of-the-art 7B and 14B models, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying GRPO on long reasoning models. Our final Light-R1-14B-DS achieves SOTA performance among 14B models in math, with AIME24 \& 25 scores of 74.0 and 60.2 respectively, surpassing many 32B models and DeepSeek-R1-Distill-Llama-70B. Despite math-focused training, Light-R1-14B-DS demonstrates strong cross-domain generalization. Light-R1 represents a significant advancement in making sophisticated reasoning models more accessible and implementable in real-world applications. Our models, training data and code have been made available at https://github.com/Qihoo360/Light-R1.

arxiv情報

著者 Liang Wen,Yunke Cai,Fenrui Xiao,Xin He,Qi An,Zhenyu Duan,Yimin Du,Junchen Liu,Lifu Tang,Xiaowei Lv,Haosheng Zou,Yongchao Deng,Shousheng Jia,Xiangzheng Zhang
発行日 2025-03-18 17:07:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク