要約
複雑な数学的推論の能力は、人工知能の重要なベンチマークです。
LLMSに適用される強化学習(RL)は有望であるが、進歩は十分に挑戦的で、RLに適した検証可能な回答形式を所有しており、評価ベンチマークに汚染されていない大規模なトレーニングデータの欠如によって大幅に妨げられる。
これらの制限に対処するために、RLを介して高度な推論モデルをトレーニングするように特別に設計された、約103kの数学的問題を含む新しい大規模なデータセットであるDeepMath-103Kを導入します。
DeepMath-103Kは、ソース分析、多数のベンチマークに対する厳しい除染、および困難なフィルタリング(主にレベル5-9)を含む厳格なパイプラインを通じてキュレーションされ、チャレンジの既存のオープンリソースを大幅に超えています。
各問題には、検証可能な最終回答、ルールベースのRLを有効にし、監視された微調整や蒸留などの多様なトレーニングパラダイムに適した3つの異なるR1生成ソリューションが含まれます。
幅広い数学的トピックにまたがるDeepMath-103Kは、一般化可能な推論の開発を促進します。
DeepMath-103Kでトレーニングされたモデルは、挑戦的な数学ベンチマークで大幅な改善を達成し、その有効性を検証することを実証します。
DeepMath-103Kを公開して、より有能なAI推論システムの構築におけるコミュニティの進歩を促進します:https://github.com/zwhe99/deepmath。
要約(オリジナル)
The capacity for complex mathematical reasoning is a key benchmark for artificial intelligence. While reinforcement learning (RL) applied to LLMs shows promise, progress is significantly hindered by the lack of large-scale training data that is sufficiently challenging, possesses verifiable answer formats suitable for RL, and is free from contamination with evaluation benchmarks. To address these limitations, we introduce DeepMath-103K, a new, large-scale dataset comprising approximately 103K mathematical problems, specifically designed to train advanced reasoning models via RL. DeepMath-103K is curated through a rigorous pipeline involving source analysis, stringent decontamination against numerous benchmarks, and filtering for high difficulty (primarily Levels 5-9), significantly exceeding existing open resources in challenge. Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation. Spanning a wide range of mathematical topics, DeepMath-103K promotes the development of generalizable reasoning. We demonstrate that models trained on DeepMath-103K achieve significant improvements on challenging mathematical benchmarks, validating its effectiveness. We release DeepMath-103K publicly to facilitate community progress in building more capable AI reasoning systems: https://github.com/zwhe99/DeepMath.
arxiv情報
著者 | Zhiwei He,Tian Liang,Jiahao Xu,Qiuzhi Liu,Xingyu Chen,Yue Wang,Linfeng Song,Dian Yu,Zhenwen Liang,Wenxuan Wang,Zhuosheng Zhang,Rui Wang,Zhaopeng Tu,Haitao Mi,Dong Yu |
発行日 | 2025-04-15 17:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google