要約
Deepseek-R1は、長いチェーン(COT)の推論が、ルールベースの報酬を備えた単純な強化学習(RL)フレームワークを通じて自然に出現することを示しています。ここでは、ベースモデルから直接開始される可能性があります。
ゼロRLトレーニングを再現するための最近の取り組みは、主にQWEN2.5モデルシリーズに焦点を当てています。これは、基本モデルがすでに強力な指導に従う能力と自己反省能力を示しているため、代表的ではないかもしれません。
この作業では、LLAMA3-8B、Mistral-7B/24B、DeepSeek-Math-7B、QWEN2.5-MATH-7B、および0.5Bから32BのすべてのQWEN2.5モデルなど、さまざまなファミリーやサイズにまたがる10の多様なベースモデルでゼロRLトレーニングを調査します。
いくつかの主要な設計戦略を活用して、調整形式の報酬とクエリの難易度を制御するなど、ほとんどの設定にわたって推論の精度と応答長の両方が大幅に改善されます。
ただし、トレーニングダイナミクスを慎重に監視することにより、さまざまなベースモデルがトレーニング中に異なるパターンを示すことがわかります。
たとえば、応答長の増加は、検証(つまり、「AHA瞬間」)などの特定の認知行動の出現と常に相関するとは限りません。
特に、Qwenファミリーからではなく、小さなモデルで初めて「Ahaの瞬間」を観察します。
成功したゼロRLトレーニングを可能にする重要なデザインと、調査結果と実践を共有しています。
さらなる研究を容易にするために、コード、モデル、分析ツールをオープンソーシングします。
要約(オリジナル)
DeepSeek-R1 has shown that long chain-of-thought (CoT) reasoning can naturally emerge through a simple reinforcement learning (RL) framework with rule-based rewards, where the training may directly start from the base models-a paradigm referred to as zero RL training. Most recent efforts to reproduce zero RL training have primarily focused on the Qwen2.5 model series, which may not be representative as we find the base models already exhibit strong instruction-following and self-reflection abilities. In this work, we investigate zero RL training across 10 diverse base models, spanning different families and sizes including LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B, and all Qwen2.5 models from 0.5B to 32B. Leveraging several key design strategies-such as adjusting format reward and controlling query difficulty-we achieve substantial improvements in both reasoning accuracy and response length across most settings. However, by carefully monitoring the training dynamics, we observe that different base models exhibit distinct patterns during training. For instance, the increased response length does not always correlate with the emergence of certain cognitive behaviors such as verification (i.e., the ‘aha moment’). Notably, we observe the ‘aha moment’ for the first time in small models not from the Qwen family. We share the key designs that enable successful zero RL training, along with our findings and practices. To facilitate further research, we open-source the code, models, and analysis tools.
arxiv情報
著者 | Weihao Zeng,Yuzhen Huang,Qian Liu,Wei Liu,Keqing He,Zejun Ma,Junxian He |
発行日 | 2025-03-24 17:06:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google