SlimPajama-DC: Understanding Data Combinations for LLM Training

要約

この論文は、SlimPajama を使用した大規模言語モデルのトレーニングに対するさまざまなデータの組み合わせ (Web テキスト、ウィキペディア、github、書籍など) の影響を理解することを目的としています。
SlimPajama は厳密に重複排除されたマルチソース データセットであり、Togetter によって提供された広範な 1.2T トークンの RedPajama データセットから洗練され、さらに 627B トークンまで重複排除されています。
私たちはこの研究を SlimPajama-DC と名付けました。これは、大規模な言語モデルのトレーニングにおける SlimPajama の採用に関連する基本的な特性とベスト プラクティスを明らかにすることを目的とした実証分析です。
SlimPajama を使用した調査中に、次の 2 つの重要な観察結果が明らかになりました。(1) グローバル重複排除とローカル重複排除。
私たちは、グローバル (異なるデータセット ソース間) およびローカル (単一ソース データセット内) の重複排除がトレーニング済みモデルのパフォーマンスにどのような影響を与えるかを分析し、議論します。
(2) 組み合わせにおける高品質/高度に重複排除されたマルチソース データセットの割合。
これを研究するために、SlimPajama データセットの 6 つの構成を構築し、Alibi と SwiGLU を備えた 1.3B Cerebras-GPT モデルを使用して個々の構成をトレーニングします。
私たちの最良の構成は、同じ数のトレーニング トークンを使用して RedPajama でトレーニングされた 1.3B モデルを大幅に上回ります。
すべての 1.3B モデルは、Cerebras 16$\times$ CS-2 クラスターで bf16 混合精度で合計 80 PFLOP/秒でトレーニングされています。
私たちは、大規模なバッチサイズのトレーニングを使用した 7B モデルで、発見をさらに拡張します (グローバル重複排除後にデータの多様性を高めることが重要であるなど)。
私たちのモデルと個別の SlimPajama-DC データセットは、https://huggingface.co/MBZUAI-LLM および https://huggingface.co/datasets/cerebras/SlimPajama-627B で入手できます。

要約(オリジナル)

This paper aims to understand the impacts of various data combinations (e.g., web text, wikipedia, github, books) on the training of large language models using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source dataset, which has been refined and further deduplicated to 627B tokens from the extensive 1.2T tokens RedPajama dataset contributed by Together. We’ve termed our research as SlimPajama-DC, an empirical analysis designed to uncover fundamental characteristics and best practices associated with employing SlimPajama in the training of large language models. During our research with SlimPajama, two pivotal observations emerged: (1) Global deduplication vs. local deduplication. We analyze and discuss how global (across different sources of datasets) and local (within the single source of dataset) deduplications affect the performance of trained models. (2) Proportions of high-quality/highly-deduplicated multi-source datasets in the combination. To study this, we construct six configurations of SlimPajama dataset and train individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best configuration outperforms the 1.3B model trained on RedPajama using the same number of training tokens by a significant margin. All our 1.3B models are trained on Cerebras 16$\times$ CS-2 cluster with a total of 80 PFLOP/s in bf16 mixed precision. We further extend our discoveries (such as increasing data diversity is crucial after global deduplication) on a 7B model with large batch-size training. Our models and the separate SlimPajama-DC datasets are available at: https://huggingface.co/MBZUAI-LLM and https://huggingface.co/datasets/cerebras/SlimPajama-627B.

arxiv情報

著者 Zhiqiang Shen,Tianhua Tao,Liqun Ma,Willie Neiswanger,Joel Hestness,Natalia Vassilieva,Daria Soboleva,Eric Xing
発行日 2023-09-19 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク