要約
Deepseek-R1-Zeroは、大規模な補強学習(RL)が、監視された微調整なしでLLMの推論能力を直接強化できることを示しています。
この作業では、ベースモデルとRLという2つのコアコンポーネントを分析することにより、R1-ゼロのようなトレーニングを批判的に調べます。
DeepSeek-V3-baseを含む幅広いベースモデルを調査して、事前トレーニングの特性がRLのパフォーマンスにどのように影響するかを理解します。
私たちの分析では、DeepSeek-V3-Baseがすでに「Aha Moment」を示していることが明らかになりましたが、QWEN2.5ベースモデルは、迅速なテンプレートがなくても強い推論能力を示し、潜在的な事前トレーニングバイアスを示唆しています。
さらに、トレーニング中に応答長を人為的に(特に間違った出力)増加させるグループ相対ポリシー最適化(GRPO)の最適化バイアスを特定します。
これに対処するために、推論パフォーマンスを維持しながらトークンの効率を向上させる公平な最適化方法であるGRPO博士を紹介します。
これらの洞察を活用して、7BベースモデルでAIME 2024で43.3%の精度を達成するミニマリストR1-Zeroレシピを紹介し、新しい最先端を確立します。
私たちのコードは、https://github.com/sail-sg/understand-r1-zeroで入手できます。
要約(オリジナル)
DeepSeek-R1-Zero has shown that reinforcement learning (RL) at scale can directly enhance the reasoning capabilities of LLMs without supervised fine-tuning. In this work, we critically examine R1-Zero-like training by analyzing its two core components: base models and RL. We investigate a wide range of base models, including DeepSeek-V3-Base, to understand how pretraining characteristics influence RL performance. Our analysis reveals that DeepSeek-V3-Base already exhibit ”Aha moment”, while Qwen2.5 base models demonstrate strong reasoning capabilities even without prompt templates, suggesting potential pretraining biases. Additionally, we identify an optimization bias in Group Relative Policy Optimization (GRPO), which artificially increases response length (especially for incorrect outputs) during training. To address this, we introduce Dr. GRPO, an unbiased optimization method that improves token efficiency while maintaining reasoning performance. Leveraging these insights, we present a minimalist R1-Zero recipe that achieves 43.3% accuracy on AIME 2024 with a 7B base model, establishing a new state-of-the-art. Our code is available at https://github.com/sail-sg/understand-r1-zero.
arxiv情報
著者 | Zichen Liu,Changyu Chen,Wenjun Li,Penghui Qi,Tianyu Pang,Chao Du,Wee Sun Lee,Min Lin |
発行日 | 2025-03-26 17:59:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google