Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems

要約

最近、o1 などのゆっくりとした思考の推論システムが、複雑な推論タスクを解決する際に顕著な能力を示しています。
これらのシステムは通常、クエリに応答する前に拡張された思考プロセスを実行し、より徹底的で正確かつ十分に根拠のあるソリューションを生成できるようにします。
これらのシステムは主に産業界によって開発および保守されており、その中核となる技術は公開されていません。
これに応えて、研究コミュニティでは、これらの強力な推論システムの基礎となる技術的基盤を探ることを目的とした研究が増えています。
この文書では、これらの以前の取り組みを基にして、o1 のような推論システムの実装に関する再現レポートを提示します。
推論モデルをトレーニングするための主要な技術的アプローチとして、「模倣、探索、自己改善」フレームワークを導入します。
初期段階では、抽出された長文の思考データを使用して推論モデルを微調整し、低速思考モードを呼び出せるようにします。
その後、モデルは複数のロールアウトを生成することで困難な問題を探索することが奨励され、その結果、正解につながるより高品質な軌跡が得られます。
さらに、モデルはトレーニング データセットを繰り返し改良することで自己改善を受けます。
このアプローチの有効性を検証するために、私たちは 3 つの困難なベンチマークで広範な実験を実施しました。
実験結果は、私たちのアプローチがこれらのベンチマークで業界レベルの推論システムと比較して競争力のあるパフォーマンスを達成していることを示しています。

要約(オリジナル)

Recently, slow-thinking reasoning systems, such as o1, have demonstrated remarkable capabilities in solving complex reasoning tasks. These systems typically engage in an extended thinking process before responding to a query, allowing them to generate more thorough, accurate, and well-reasoned solutions. These systems are primarily developed and maintained by industry, with their core techniques not publicly disclosed. In response, an increasing number of studies from the research community aim to explore the technical foundations underlying these powerful reasoning systems. Building on these prior efforts, this paper presents a reproduction report on implementing o1-like reasoning systems. We introduce an ‘imitate, explore, and self-improve’ framework as our primary technical approach to train the reasoning model. In the initial phase, we use distilled long-form thought data to fine-tune the reasoning model, enabling it to invoke a slow-thinking mode. The model is then encouraged to explore challenging problems by generating multiple rollouts, which can result in increasingly more high-quality trajectories that lead to correct answers. Furthermore, the model undergoes self-improvement by iteratively refining its training dataset. To verify the effectiveness of this approach, we conduct extensive experiments on three challenging benchmarks. The experimental results demonstrate that our approach achieves competitive performance compared to industry-level reasoning systems on these benchmarks.

arxiv情報

著者 Yingqian Min,Zhipeng Chen,Jinhao Jiang,Jie Chen,Jia Deng,Yiwen Hu,Yiru Tang,Jiapeng Wang,Xiaoxue Cheng,Huatong Song,Wayne Xin Zhao,Zheng Liu,Zhongyuan Wang,Ji-Rong Wen
発行日 2024-12-12 16:20:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク