Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset

要約

FineWeb-EduやDCLMのような最近のEnglish Common Crawlデータセットは、積極的なモデルベースのフィルタリングによってベンチマークを大幅に向上させたが、その代償として90%のデータが削除された。このため、Llama 3.1の15Tトークンのような、長いトークンの学習には適していません。本論文では、分類器のアンサンブル、合成データの言い換え、ヒューリスティックフィルタへの依存度の低減を組み合わせることで、精度とデータ量のトレードオフを改善する方法を示す。1Tトークンに対して8Bパラメータモデルを学習する場合、我々のデータの高品質なサブセットを使用することで、DCLMよりもMMLUが5.6向上し、比較的短いトークンホライズンで精度を向上させる我々の手法の有効性が実証された。さらに、我々の6.3TトークンデータセットはDCLMとMMLUで一致するが、DCLMより4倍多くのユニークな実トークンを含む。15Tのトークン(うち7.2Tは我々のデータセットから得られた)に対して訓練された8Bパラメータモデルは、Llama 3.1 8Bモデルよりも優れている:MMLUで+5、ARC-Challengeで+3.1、10個の多様なタスクの平均で+0.5。データセットはhttps://data.commoncrawl.org/contrib/Nemotron/Nemotron-CC/index.html。

要約(オリジナル)

Recent English Common Crawl datasets like FineWeb-Edu and DCLM achieved significant benchmark gains via aggressive model-based filtering, but at the cost of removing 90% of data. This limits their suitability for long token horizon training, such as 15T tokens for Llama 3.1. In this paper, we show how to achieve better trade-offs between accuracy and data quantity by a combination of classifier ensembling, synthetic data rephrasing, and reduced reliance on heuristic filters. When training 8B parameter models for 1T tokens, using a high-quality subset of our data improves MMLU by 5.6 over DCLM, demonstrating the efficacy of our methods for boosting accuracies over a relatively short token horizon. Furthermore, our full 6.3T token dataset matches DCLM on MMLU, but contains four times more unique real tokens than DCLM. This unlocks state-of-the-art training over a long token horizon: an 8B parameter model trained for 15T tokens, of which 7.2T came from our dataset, is better than the Llama 3.1 8B model: +5 on MMLU, +3.1 on ARC-Challenge, and +0.5 on average across ten diverse tasks. The dataset is available at https://data.commoncrawl.org/contrib/Nemotron/Nemotron-CC/index.html

arxiv情報

著者 Dan Su,Kezhi Kong,Ying Lin,Joseph Jennings,Brandon Norick,Markus Kliegl,Mostofa Patwary,Mohammad Shoeybi,Bryan Catanzaro
発行日 2024-12-03 17:28:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク