要約
このペーパーでは、AI数学オリンピアード – 進歩賞2(AIMO -2)コンペティションへの当社の勝利の提出を提示します。
最先端の数学的推論モデルを構築するための私たちのレシピは、3つの重要な柱に依存しています。
まず、オリンピアードレベルの問題を含む540kのユニークな高品質の数学の問題と、3.2mの長期的なソリューションを含む大規模なデータセットを作成します。
第二に、反復トレーニング、生成、および品質フィルタリングを通じてコード実行を長い推論モデルと統合する新しい方法を開発し、1.7mの高品質のツール統合推論ソリューションをもたらします。
第三に、多くの候補者から最も有望なソリューションを選択するためのモデルをトレーニングするパイプラインを作成します。
このような生成ソリューション選択(GenSelect)が、多数派の投票ベースラインを大幅に改善できることを示しています。
これらのアイデアを組み合わせることで、数学的推論ベンチマークに関する最先端の結果を達成する一連のモデルをトレーニングします。
さらなる調査を容易にするために、商業的に許容されるライセンスの下で、コード、モデル、および完全なOpenMathreasiningデータセットをリリースします。
要約(オリジナル)
This paper presents our winning submission to the AI Mathematical Olympiad – Progress Prize 2 (AIMO-2) competition. Our recipe for building state-of-the-art mathematical reasoning models relies on three key pillars. First, we create a large-scale dataset comprising 540K unique high-quality math problems, including olympiad-level problems, and their 3.2M long-reasoning solutions. Second, we develop a novel method to integrate code execution with long reasoning models through iterative training, generation, and quality filtering, resulting in 1.7M high-quality Tool-Integrated Reasoning solutions. Third, we create a pipeline to train models to select the most promising solution from many candidates. We show that such generative solution selection (GenSelect) can significantly improve upon majority voting baseline. Combining these ideas, we train a series of models that achieve state-of-the-art results on mathematical reasoning benchmarks. To facilitate further research, we release our code, models, and the complete OpenMathReasoning dataset under a commercially permissive license.
arxiv情報
著者 | Ivan Moshkov,Darragh Hanley,Ivan Sorokin,Shubham Toshniwal,Christof Henkel,Benedikt Schifferer,Wei Du,Igor Gitman |
発行日 | 2025-04-23 17:13:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google