SlimPajama-DC: Understanding Data Combinations for LLM Training

要約

この論文は、SlimPajama を使用した大規模言語モデルの事前トレーニングに対するさまざまなデータの組み合わせ (Web テキスト、Wikipedia、GitHub、書籍など) の影響を理解することを目的としています。
SlimPajama は厳密に重複排除されたマルチソース データセットであり、Togetter によって提供された広範な 1.2T トークン RedPajama データセットから洗練され、さらに 627B トークンまで重複排除されています。
私たちはこの研究を SlimPajama-DC と名付けました。これは、大規模な言語モデルのトレーニングにおける SlimPajama の採用に関連する基本的な特性とベスト プラクティスを明らかにすることを目的とした実証分析です。
SlimPajama を使用した調査中に、次の 2 つの重要な観察結果が明らかになりました。(1) グローバル重複排除とローカル重複排除。
私たちは、グローバル (異なるデータセット ソース間) およびローカル (単一ソース データセット内) の重複排除がトレーニング済みモデルのパフォーマンスにどのような影響を与えるかを分析し、議論します。
(2) 組み合わせにおける高度に重複排除されたマルチソース データセットの割合。
これを研究するために、SlimPajama データセット上に 6 つの構成を構築し、Alibi と SwiGLU を備えた 1.3B Cerebras-GPT モデルを使用して個々の構成をトレーニングします。
私たちの最良の構成は、同じ数のトレーニング トークンを使用して RedPajama でトレーニングされた 1.3B モデルを大幅に上回ります。
すべての 1.3B モデルは、Cerebras 16$\times$ CS-2 クラスターで bf16 混合精度で合計 80 PFLOP/秒でトレーニングされています。
私たちは、大規模なバッチサイズのトレーニングを使用した 7B モデルで、発見をさらに拡張します (グローバル重複排除後にデータの多様性を高めることが重要であるなど)。
SlimPajama-DC モデルは https://huggingface.co/MBZUAI-LLM/SlimPajama-DC で入手でき、別の SlimPajama-DC データセットは https://huggingface.co/datasets/MBZUAI-LLM/SlimPajama で入手できます。
-627B-DC。

要約(オリジナル)

This paper aims to understand the impacts of various data combinations (e.g., web text, Wikipedia, GitHub, books) on the pretraining of large language models using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source dataset, which has been refined and further deduplicated to 627B tokens from the extensive 1.2T token RedPajama dataset contributed by Together. We have termed our research as SlimPajama-DC, an empirical analysis designed to uncover fundamental characteristics and best practices associated with employing SlimPajama in the training of large language models. During our research with SlimPajama, two pivotal observations emerged: (1) Global deduplication vs. local deduplication. We analyze and discuss how global (across different sources of datasets) and local (within the single source of dataset) deduplications affect the performance of trained models. (2) Proportions of highly-deduplicated multi-source datasets in the combination. To study this, we construct six configurations on SlimPajama dataset and train individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best configuration outperforms the 1.3B model trained on RedPajama using the same number of training tokens by a significant margin. All our 1.3B models are trained on Cerebras 16$\times$ CS-2 cluster with a total of 80 PFLOP/s in bf16 mixed precision. We further extend our discoveries (such as increasing data diversity is crucial after global deduplication) on a 7B model with large batch-size training. Our SlimPajama-DC models are available at: https://huggingface.co/MBZUAI-LLM/SlimPajama-DC and the separate SlimPajama-DC datasets are available at: https://huggingface.co/datasets/MBZUAI-LLM/SlimPajama-627B-DC.

arxiv情報

著者 Zhiqiang Shen,Tianhua Tao,Liqun Ma,Willie Neiswanger,Zhengzhong Liu,Hongyi Wang,Bowen Tan,Joel Hestness,Natalia Vassilieva,Daria Soboleva,Eric Xing
発行日 2024-05-09 13:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク