MathPile: A Billion-Token-Scale Pretraining Corpus for Math

要約

高品質で大規模なコーパスは、基礎モデルの構築の基礎となります。
この研究では、約 95 億のトークンで構成される多様で高品質な数学中心のコーパスである MathPile を紹介します。
その作成を通じて、私たちは「少ないほど良い」の原則を遵守し、トレーニング前の段階であってもデータの量よりも質の優位性を強く信じていました。
私たちの綿密なデータ収集と処理には、前処理、前フィルタリング、言語識別、クリーニング、フィルタリング、重複排除の複雑なスイートが含まれており、コーパスの高品質を保証しています。
さらに、下流のベンチマーク テスト セットでデータ汚染検出を実行して重複を排除し、継続的な事前トレーニング実験を実施して、一般的な数学的推論ベンチマークのパフォーマンスを向上させました。
私たちは、MathPile が言語モデルの数学的推論能力を強化し、そのさまざまなバージョンと処理スクリプトをオープンソースにしてこの分野を進歩させることを目指しています。

要約(オリジナル)

High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce MathPile, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of ‘less is more’, firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates and conducted continual pre-training experiments, booting the performance on common mathematical reasoning benchmarks. We aim for our MathPile to boost language models’ mathematical reasoning abilities and open-source its different versions and processing scripts to advance the field.

arxiv情報

著者 Zengzhi Wang,Xuefeng Li,Rui Xia,Pengfei Liu
発行日 2024-10-29 17:02:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク