要約
最近の推論言語モデル(RLM)の開発は、大規模言語モデルの新しい進化を表している。特に、最近リリースされたDeepSeek-R1は、広く社会的なインパクトを生み出し、言語モデルの明示的な推論パラダイムの探求に対する研究コミュニティの熱意に火をつけました。しかし、リリースされたモデルの実装の詳細は、DeepSeek-R1-Zero、DeepSeek-R1、および抽出された小さなモデルを含め、DeepSeekによって完全にオープンソース化されていません。その結果、DeepSeek-R1 によって達成された強力なパフォーマンスを再現することを目的とした多くの再現研究が出現し、同様のトレーニング手順と完全にオープンソース化されたデータリソースによって同等のパフォーマンスに達しました。これらの研究は、教師あり微調整(SFT)と検証可能な報酬からの強化学習(RLVR)の実現可能な戦略を、データ準備と手法設計に焦点を当てて調査し、様々な貴重な洞察を得ている。本レポートでは、今後の研究の参考となるよう、最近の再現研究の概要を示す。主にSFTとRLVRの2つの方向性に焦点を当て、現在の再現研究のデータ構築、手法設計、学習手順の詳細を紹介する。さらに、これらの研究で報告された実装の詳細と実験結果から得られた重要な知見を結論付け、今後の研究に示唆を与えることを期待する。また、RLMを強化するための追加技術についても議論し、これらのモデルの適用範囲を拡大する可能性を強調するとともに、開発における課題について議論する。この調査によって、RLMの研究者や開発者が最新の進歩を知ることができ、RLMをさらに強化するための新たなアイデアが生まれることを目指す。
要約(オリジナル)
The recent development of reasoning language models (RLMs) represents a novel evolution in large language models. In particular, the recent release of DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in the research community for exploring the explicit reasoning paradigm of language models. However, the implementation details of the released models have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero, DeepSeek-R1, and the distilled small models. As a result, many replication studies have emerged aiming to reproduce the strong performance achieved by DeepSeek-R1, reaching comparable performance through similar training procedures and fully open-source data resources. These works have investigated feasible strategies for supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR), focusing on data preparation and method design, yielding various valuable insights. In this report, we provide a summary of recent replication studies to inspire future research. We primarily focus on SFT and RLVR as two main directions, introducing the details for data construction, method design and training procedure of current replication studies. Moreover, we conclude key findings from the implementation details and experimental results reported by these studies, anticipating to inspire future research. We also discuss additional techniques of enhancing RLMs, highlighting the potential of expanding the application scope of these models, and discussing the challenges in development. By this survey, we aim to help researchers and developers of RLMs stay updated with the latest advancements, and seek to inspire new ideas to further enhance RLMs.
arxiv情報
著者 | Chong Zhang,Yue Deng,Xiang Lin,Bin Wang,Dianwen Ng,Hai Ye,Xingxuan Li,Yao Xiao,Zhanfeng Mo,Qi Zhang,Lidong Bing |
発行日 | 2025-05-02 07:44:19+00:00 |
arxivサイト | arxiv_id(pdf) |