Scaling Laws of Synthetic Data for Language Models

要約

大規模な言語モデル(LLM)は、主にトレーニング前に使用される高品質のWebデータによって駆動される多様なタスク全体で強力なパフォーマンスを実現します。
ただし、最近の研究では、このデータソースが急速に枯渇していることが示されています。
合成データは有望な代替手段として浮上していますが、合成データセットが生のトレーニング前データに匹敵する予測可能なスケーラビリティを示すかどうかは不明のままです。
この作業では、トレーニング前のコーパスを多様で高品質の合成データセットに変換するスケーラブルなフレームワークであるSynthllMを導入することにより、合成データのスケーリング法則を体系的に調査します。
私たちのアプローチは、グラフアルゴリズムを使用して複数のドキュメントにわたって高レベルの概念を自動的に抽出および再結合することにより、これを達成します。
Synthllmに関する広範な数学実験からの主要な調査結果には、次のものが含まれます。(1)Synthllmは、さまざまなモデルサイズにわたって整流されたスケーリング法に確実に付着する合成データを生成します。
(2)パフォーマンスの改善300Bトークン近くのプラトー。
(3)より少ないトレーニングトークンで、より大きなモデルが最適なパフォーマンスにアプローチします。
たとえば、8Bモデルは1Tトークンでピークに達しますが、3Bモデルには4Tが必要です。
さらに、既存の合成データ生成および増強方法との比較により、Synthllmが優れたパフォーマンスとスケーラビリティを達成することが示されています。
私たちの調査結果は、合成データを強調して、オーガニックのプリトレーニングコーパスに代わるスケーラブルで信頼できる代替手段として、モデルパフォーマンスの継続的な改善への実行可能なパスを提供します。

要約(オリジナル)

Large language models (LLMs) achieve strong performance across diverse tasks, largely driven by high-quality web data used in pre-training. However, recent studies indicate this data source is rapidly depleting. Synthetic data emerges as a promising alternative, but it remains unclear whether synthetic datasets exhibit predictable scalability comparable to raw pre-training data. In this work, we systematically investigate the scaling laws of synthetic data by introducing SynthLLM, a scalable framework that transforms pre-training corpora into diverse, high-quality synthetic datasets. Our approach achieves this by automatically extracting and recombining high-level concepts across multiple documents using a graph algorithm. Key findings from our extensive mathematical experiments on SynthLLM include: (1) SynthLLM generates synthetic data that reliably adheres to the rectified scaling law across various model sizes; (2) Performance improvements plateau near 300B tokens; and (3) Larger models approach optimal performance with fewer training tokens. For instance, an 8B model peaks at 1T tokens, while a 3B model requires 4T. Moreover, comparisons with existing synthetic data generation and augmentation methods demonstrate that SynthLLM achieves superior performance and scalability. Our findings highlight synthetic data as a scalable and reliable alternative to organic pre-training corpora, offering a viable path toward continued improvement in model performance.

arxiv情報

著者 Zeyu Qin,Qingxiu Dong,Xingxing Zhang,Li Dong,Xiaolong Huang,Ziyi Yang,Mahmoud Khademi,Dongdong Zhang,Hany Hassan Awadalla,Yi R. Fung,Weizhu Chen,Minhao Cheng,Furu Wei
発行日 2025-03-26 11:23:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク