要約
スケーラビリティ、シンプルさ、アクセシビリティに焦点を当てた大規模な推論指向RLトレーニングの最初のオープンソース実装であるOpen-Reasoner-Zeroを紹介します。
大規模な実験を通じて、KL($ \ lambda = 1 $、$ \ gamma = 1 $)とKLの正規化なしに、GAE($ \ lambda = 1 $、$ \ gamma = 1 $)を備えたバニラPPOが、deepseek-r1-zeroで観察されたフェノメノンと同様に、応答長とベンチマークパフォーマンスの両方を拡大するのに十分であることを実証します。
DeepSeek-R1-Zero-Qwen-32Bと同じベースモデルを使用して、実装はAIME2024、Math500、およびGPQAダイヤモンドベンチマークで優れたパフォーマンスを達成しながら、DeepSeek-R1-Zero Pipelineと比較して、トレーニングステップの10分の1しか必要とします。
オープンソースのスピリットでは、さまざまなサイズにわたってソースコード、パラメーター設定、トレーニングデータ、モデルの重みをリリースします。
要約(オリジナル)
We introduce Open-Reasoner-Zero, the first open source implementation of large-scale reasoning-oriented RL training focusing on scalability, simplicity and accessibility. Through extensive experiments, we demonstrate that a minimalist approach, vanilla PPO with GAE ($\lambda=1$, $\gamma=1$) and straightforward rule-based rewards, without any KL regularization, is sufficient to scale up both response length and benchmark performance, similar to the phenomenon observed in DeepSeek-R1-Zero. Using the same base model as DeepSeek-R1-Zero-Qwen-32B, our implementation achieves superior performance on AIME2024, MATH500, and the GPQA Diamond benchmark while demonstrating remarkable efficiency — requiring only a tenth of the training steps, compared to DeepSeek-R1-Zero pipeline. In the spirit of open source, we release our source code, parameter settings, training data, and model weights across various sizes.
arxiv情報
著者 | Jingcheng Hu,Yinmin Zhang,Qi Han,Daxin Jiang,Xiangyu Zhang,Heung-Yeung Shum |
発行日 | 2025-03-31 16:36:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google