Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models

要約

推論モデルへの関心の高まりにより、数学はアルゴリズムと方法論の改善の顕著なテスト場になりました。
ただし、既存のオープン数学データセットには、高品質で人間が書かれた問題の小さなコレクションまたは不確実な品質の機械で生成された問題の大規模なコーパスが含まれているため、研究者に品質と量を選択することが強制されています。
この作業では、検証可能な回答を含む250,000を超える高品質の数学の質問のデータセットであるBig-Mathを、強化学習(RL)のために意図的に作成します。
Big-Mathを作成するために、私たちは厳密にフィルタリング、クリーン、キュレートし、オープンに利用可能なデータセットを抽出し、3つのDesiderataを満たす質問を抽出します。
閉じたソリューション付き。
Big-Mathの品質を確保するために、フィルタリングプロセスの各ステップを手動で検証します。
フィルタリングプロセスからの調査結果に基づいて、系統的な再編成アルゴリズムを通じて自由回答形式の質問として再定式化された、Big-Math-reformulated:Big-Math-Endedの質問(つまり、複数選択の質問)を検証した回答を含む47,000の新しい質問を紹介します。
数学の推論で最も一般的に使用されている既存のオープンソースデータセット、GSM8K、および数学と比較して、Big-Mathは数桁大きくなりますが、厳密なフィルタリングにより、RLに最も適した質問を維持することが保証されます。
また、データセットの厳密な分析を提供し、Big-Mathには問題ドメイン全体の高度な多様性が含まれており、さまざまな機能とトレーニング要件のモデルに幅広いダウンストリーム使用を可能にすることができます。
データの品質と数量の間のギャップを埋めることにより、Big-MathはLLMで推論を進めるための堅牢な基盤を確立します。

要約(オリジナル)

Increasing interest in reasoning models has led math to become a prominent testing ground for algorithmic and methodological improvements. However, existing open math datasets either contain a small collection of high-quality, human-written problems or a large corpus of machine-generated problems of uncertain quality, forcing researchers to choose between quality and quantity. In this work, we present Big-Math, a dataset of over 250,000 high-quality math questions with verifiable answers, purposefully made for reinforcement learning (RL). To create Big-Math, we rigorously filter, clean, and curate openly available datasets, extracting questions that satisfy our three desiderata: (1) problems with uniquely verifiable solutions, (2) problems that are open-ended, (3) and problems with a closed-form solution. To ensure the quality of Big-Math, we manually verify each step in our filtering process. Based on the findings from our filtering process, we introduce 47,000 new questions with verified answers, Big-Math-Reformulated: closed-ended questions (i.e. multiple choice questions) that have been reformulated as open-ended questions through a systematic reformulation algorithm. Compared to the most commonly used existing open-source datasets for math reasoning, GSM8k and MATH, Big-Math is an order of magnitude larger, while our rigorous filtering ensures that we maintain the questions most suitable for RL. We also provide a rigorous analysis of the dataset, finding that Big-Math contains a high degree of diversity across problem domains, and incorporates a wide range of problem difficulties, enabling a wide range of downstream uses for models of varying capabilities and training requirements. By bridging the gap between data quality and quantity, Big-Math establish a robust foundation for advancing reasoning in LLMs.

arxiv情報

著者 Alon Albalak,Duy Phung,Nathan Lile,Rafael Rafailov,Kanishk Gandhi,Louis Castricato,Anikait Singh,Chase Blagden,Violet Xiang,Dakota Mahan,Nick Haber
発行日 2025-02-24 18:14:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク