100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

要約

推論言語モデル(RLMS)の最近の開発は、大規模な言語モデルの新しい進化を表しています。
特に、DeepSeek-R1の最近のリリースは、言語モデルの明示的な推論パラダイムを探るために、研究コミュニティの広範な社会的影響を生み出し、熱意を引き起こしました。
ただし、リリースされたモデルの実装の詳細は、DeepSeek-R1-Zero、DeepSeek-R1、蒸留小さなモデルなど、DeepSeekによって完全にオープンソース化されていません。
その結果、多くの複製研究が、DeepSeek-R1によって達成された強力なパフォーマンスを再現することを目的としており、同様のトレーニング手順と完全にオープンソースのデータリソースを通じて同等のパフォーマンスに達しました。
これらの作品は、検証可能な報酬(RLVR)からの監視された微調整(SFT)および強化学習のための実行可能な戦略を調査し、データの準備とメソッド設計に焦点を当て、さまざまな貴重な洞察をもたらしました。
このレポートでは、将来の研究を促すために、最近の複製研究の要約を提供します。
主にSFTとRLVRに2つの主要な方向として焦点を当て、現在の複製研究のデータ構築、メソッド設計、およびトレーニング手順の詳細を紹介しています。
さらに、これらの研究で報告された実装の詳細と実験結果から重要な調査結果を結論付け、将来の研究を促すことを期待しています。
また、RLMを強化し、これらのモデルのアプリケーション範囲を拡大する可能性を強調し、開発における課題について議論する追加の手法についても説明します。
この調査により、RLMSの研究者と開発者が最新の進歩を維持し、RLMをさらに強化するための新しいアイデアを鼓舞しようとすることを目指しています。

要約(オリジナル)

The recent development of reasoning language models (RLMs) represents a novel evolution in large language models. In particular, the recent release of DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in the research community for exploring the explicit reasoning paradigm of language models. However, the implementation details of the released models have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero, DeepSeek-R1, and the distilled small models. As a result, many replication studies have emerged aiming to reproduce the strong performance achieved by DeepSeek-R1, reaching comparable performance through similar training procedures and fully open-source data resources. These works have investigated feasible strategies for supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR), focusing on data preparation and method design, yielding various valuable insights. In this report, we provide a summary of recent replication studies to inspire future research. We primarily focus on SFT and RLVR as two main directions, introducing the details for data construction, method design and training procedure of current replication studies. Moreover, we conclude key findings from the implementation details and experimental results reported by these studies, anticipating to inspire future research. We also discuss additional techniques of enhancing RLMs, highlighting the potential of expanding the application scope of these models, and discussing the challenges in development. By this survey, we aim to help researchers and developers of RLMs stay updated with the latest advancements, and seek to inspire new ideas to further enhance RLMs.

arxiv情報

著者 Chong Zhang,Yue Deng,Xiang Lin,Bin Wang,Dianwen Ng,Hai Ye,Xingxuan Li,Yao Xiao,Zhanfeng Mo,Qi Zhang,Lidong Bing
発行日 2025-05-01 14:28:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク