要約
我々は、rStar-Math を紹介して、小規模言語モデル (SLM) が、優れたモデルを抽出することなく、OpenAI o1 の数学的推論能力に匹敵する、あるいはそれを上回ることができることを実証します。
rStar-Math は、モンテカルロ ツリー検索 (MCTS) を通じて「深い思考」を実行することでこれを実現します。MCTS では、数学ポリシー SLM が、SLM ベースのプロセス報酬モデルに基づいてテスト時の検索を実行します。
rStar-Math は、2 つの SLM のトレーニングにおける課題に取り組むための 3 つのイノベーションを導入しています。 (1) 新しいコード拡張 CoT データ合成手法。広範な MCTS ロールアウトを実行して、ポリシー SLM のトレーニングに使用される段階的に検証された推論軌跡を生成します。
;
(2) 単純なステップレベルのスコア注釈を回避し、より効果的なプロセス優先モデル (PPM) を生成する、新しいプロセス報酬モデル トレーニング方法。
(3) 自己進化レシピ。ポリシー SLM と PPM がゼロから構築され、推論機能を向上させるために反復的に進化します。
rStar-Math は、747,000 の数学問題に対する何百万もの合成ソリューションによる 4 ラウンドの自己進化を通じて、SLM の数学的推論を最先端のレベルに引き上げます。
MATH ベンチマークでは、Qwen2.5-Math-7B が 58.8% から 90.0%、Phi3-mini-3.8B が 41.4% から 86.4% に向上し、o1-preview を +4.5% および +0.9% 上回っています。
米国数学オリンピック (AIME) では、rStar-Math は平均 53.3% (8/15) の問題を解決し、最も優秀な数学の高校生のうち上位 20% にランクされています。
コードとデータは https://github.com/microsoft/rStar で入手できます。
要約(オリジナル)
We present rStar-Math to demonstrate that small language models (SLMs) can rival or even surpass the math reasoning capability of OpenAI o1, without distillation from superior models. rStar-Math achieves this by exercising ‘deep thinking’ through Monte Carlo Tree Search (MCTS), where a math policy SLM performs test-time search guided by an SLM-based process reward model. rStar-Math introduces three innovations to tackle the challenges in training the two SLMs: (1) a novel code-augmented CoT data sythesis method, which performs extensive MCTS rollouts to generate step-by-step verified reasoning trajectories used to train the policy SLM; (2) a novel process reward model training method that avoids na\’ive step-level score annotation, yielding a more effective process preference model (PPM); (3) a self-evolution recipe in which the policy SLM and PPM are built from scratch and iteratively evolved to improve reasoning capabilities. Through 4 rounds of self-evolution with millions of synthesized solutions for 747k math problems, rStar-Math boosts SLMs’ math reasoning to state-of-the-art levels. On the MATH benchmark, it improves Qwen2.5-Math-7B from 58.8% to 90.0% and Phi3-mini-3.8B from 41.4% to 86.4%, surpassing o1-preview by +4.5% and +0.9%. On the USA Math Olympiad (AIME), rStar-Math solves an average of 53.3% (8/15) of problems, ranking among the top 20% the brightest high school math students. Code and data will be available at https://github.com/microsoft/rStar.
arxiv情報
著者 | Xinyu Guan,Li Lyna Zhang,Yifei Liu,Ning Shang,Youran Sun,Yi Zhu,Fan Yang,Mao Yang |
発行日 | 2025-01-08 14:12:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google