OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text

要約

コードや数学などの高品質で慎重に考えられたトークンの事前トレーニングが、大規模な言語モデルの推論能力を向上させる上で重要な役割を果たすという証拠が増えています。
たとえば、arXiv と Web からの数十億トークンの数学文書に基づいて微調整された PaLM モデルである Minerva は、定量的推論を必要とする問題のパフォーマンスが劇的に向上したと報告しました。
ただし、既知のオープンソース Web データセットはすべて、数学的表記を忠実に保持しない前処理を採用しているため、研究コミュニティは定量的な Web ドキュメントに対する大規模なトレーニングの利点を利用できません。
OpenWebMath は、Common Crawl の数学的 Web ページの 147 億トークンを含む、これらの作品からインスピレーションを得たオープン データセットです。
テキストと LaTeX コンテンツを抽出し、HTML 文書からボイラープレートを削除する方法、および高品質のフィルタリングと重複排除の方法について詳しく説明します。
さらに、OpenWebMath で 147 億のパラメーター言語モデルをトレーニングする小規模な実験を実行し、データセットの 147 億トークンでトレーニングされたモデルが、20 倍を超える一般的な言語データの量でトレーニングされたモデルのパフォーマンスを上回ることを示しました。
私たちは、Hugging Face Hub で公開された私たちのデータセットが、大規模な言語モデルの推論能力の進歩を促進するのに役立つことを願っています。

要約(オリジナル)

There is growing evidence that pretraining on high quality, carefully thought-out tokens such as code or mathematics plays an important role in improving the reasoning abilities of large language models. For example, Minerva, a PaLM model finetuned on billions of tokens of mathematical documents from arXiv and the web, reported dramatically improved performance on problems that require quantitative reasoning. However, because all known open source web datasets employ preprocessing that does not faithfully preserve mathematical notation, the benefits of large scale training on quantitive web documents are unavailable to the research community. We introduce OpenWebMath, an open dataset inspired by these works containing 14.7B tokens of mathematical webpages from Common Crawl. We describe in detail our method for extracting text and LaTeX content and removing boilerplate from HTML documents, as well as our methods for quality filtering and deduplication. Additionally, we run small-scale experiments by training 1.4B parameter language models on OpenWebMath, showing that models trained on 14.7B tokens of our dataset surpass the performance of models trained on over 20x the amount of general language data. We hope that our dataset, openly released on the Hugging Face Hub, will help spur advances in the reasoning abilities of large language models.

arxiv情報

著者 Keiran Paster,Marco Dos Santos,Zhangir Azerbayev,Jimmy Ba
発行日 2023-10-10 16:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク