要約
数理的推論は人間の知能の基礎であり、大規模言語モデル(LLM)の高度な能力の重要なベンチマークである。しかし、研究コミュニティには、数学中心のLLM事前トレーニングの需要に合わせた、オープンで大規模かつ高品質なコーパスがまだ不足している。MegaMathは、数学に特化した多様なソースから、次のような手法でキュレーションされたオープンなデータセットである:(1)ウェブデータの再検討:コモンクロールから数学文書を再抽出し、数学指向のHTML最適化、高速テキストベースのフィルタリング、重複排除を行う。(2) 数学関連コードデータの想起:大規模コード学習コーパスStack-V2から質の高い数学関連コードを抽出し、データの多様性をさらに高めた。(3) 合成データの探索:ウェブデータやコードデータから、QAスタイルのテキスト、数学関連コード、インターリーブされたテキスト-コードブロックを合成した。これらの戦略を統合し、広範なアブレーションを通じてその有効性を検証することで、MegaMathは既存のオープンな数学事前学習データセットの中で最大量かつ最高品質の371Bトークンを提供する。
要約(オリジナル)
Mathematical reasoning is a cornerstone of human intelligence and a key benchmark for advanced capabilities in large language models (LLMs). However, the research community still lacks an open, large-scale, high-quality corpus tailored to the demands of math-centric LLM pre-training. We present MegaMath, an open dataset curated from diverse, math-focused sources through following practices: (1) Revisiting web data: We re-extracted mathematical documents from Common Crawl with math-oriented HTML optimizations, fasttext-based filtering and deduplication, all for acquiring higher-quality data on the Internet. (2) Recalling Math-related code data: We identified high quality math-related code from large code training corpus, Stack-V2, further enhancing data diversity. (3) Exploring Synthetic data: We synthesized QA-style text, math-related code, and interleaved text-code blocks from web data or code data. By integrating these strategies and validating their effectiveness through extensive ablations, MegaMath delivers 371B tokens with the largest quantity and top quality among existing open math pre-training datasets.
arxiv情報
| 著者 | Fan Zhou,Zengzhi Wang,Nikhil Ranjan,Zhoujun Cheng,Liping Tang,Guowei He,Zhengzhong Liu,Eric P. Xing |
| 発行日 | 2025-04-03 17:52:07+00:00 |
| arxivサイト | arxiv_id(pdf) |