Generative AI for Math: Part I — MathPile: A Billion-Token-Scale Pretraining Corpus for Math

要約

高品質で大規模なコーパスは、基礎モデルの構築の基礎となります。
この研究では、約 95 億のトークンで構成される多様で高品質な数学中心のコーパスである \textsc{MathPile} を紹介します。
その作成を通じて、私たちは「\emph{less is more}」の原則を遵守し、トレーニング前の段階であってもデータの量よりも質の優位性を強く信じていました。
私たちの綿密なデータ収集と処理には、前処理、前フィルタリング、言語識別、クリーニング、フィルタリング、重複排除の複雑なスイートが含まれており、コーパスの高品質を保証しています。
さらに、下流のベンチマーク テスト セットでデータ汚染検出を実行し、重複を排除しました。
\textsc{MathPile} が言語モデルの数学的推論能力の強化に役立つことを願っています。
この分野での将来の開発を促進するために、処理に使用されるスクリプトを含むさまざまなバージョンの \mathpil をオープンソース化する予定です。

要約(オリジナル)

High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce \textsc{MathPile}, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of “\emph{less is more}”, firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our \textsc{MathPile} can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.

arxiv情報

著者 Zengzhi Wang,Rui Xia,Pengfei Liu
発行日 2023-12-28 16:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク