要約
大規模言語モデル (LLM) の事前トレーニング データセットは、大量の CommonCrawl (CC) Web スクレイピングと、より小さなドメイン固有のデータセットで構成される数兆個のトークンに成長しました。
困難で緊急のベンチマークに対する大幅な変更を明らかにするには、大規模な FLOP スケールでのトレーニングが必要なため、これらのドメイン固有のデータセットがモデルの機能に与える影響を理解するにはコストがかかります。
事前トレーニング データの実験コストが増加していることを考えると、一般的な Web スクレイピングの多様性とドメイン固有のデータの情報密度の間の最適なバランスをどのように決定すればよいでしょうか?
この研究では、トレーニングの終了時に CC と比較してアップサンプリングすることでドメイン固有の小さなデータセットを活用し、難しいベンチマークでのパフォーマンスの向上を促進する方法を示します。
この単純な手法により、1 兆 (T) トークン用にトレーニングされた 7B モデルの基本データ ミックスと比較して、MMLU で最大 6.90 pp、GSM8K で 8.26 pp、HumanEval で 6.17 pp 改善することができ、Llama-2 (7B) に匹敵します。
)$\unicode{x2014}$a モデルは 2 倍の時間トレーニングされました。
私たちは、ドメイン アップサンプリングの期間をトレーニングの 5% から 30% に短縮することを実験しました。その結果、一般的な言語モデリング機能と対象となるベンチマークの間のトレードオフをナビゲートするには 10% から 20% が最適であることがわかりました。
また、ドメイン アップサンプリングを使用して、トレーニングのこの最終段階でデータセットを削除することで、さまざまなベンチマークを改善するための個々のデータセットの有用性を大規模に特徴付けます。
このツールを使用すると、さまざまな事前トレーニング データセットの影響を大規模に実験できるようになりますが、事前トレーニングを完全に実行する場合に比べてコストが桁違いに低くなります。
要約(オリジナル)
Pretraining datasets for large language models (LLMs) have grown to trillions of tokens composed of large amounts of CommonCrawl (CC) web scrape along with smaller, domain-specific datasets. It is expensive to understand the impact of these domain-specific datasets on model capabilities as training at large FLOP scales is required to reveal significant changes to difficult and emergent benchmarks. Given the increasing cost of experimenting with pretraining data, how does one determine the optimal balance between the diversity in general web scrapes and the information density of domain specific data? In this work, we show how to leverage the smaller domain specific datasets by upsampling them relative to CC at the end of training to drive performance improvements on difficult benchmarks. This simple technique allows us to improve up to 6.90 pp on MMLU, 8.26 pp on GSM8K, and 6.17 pp on HumanEval relative to the base data mix for a 7B model trained for 1 trillion (T) tokens, thus rivaling Llama-2 (7B)$\unicode{x2014}$a model trained for twice as long. We experiment with ablating the duration of domain upsampling from 5% to 30% of training and find that 10% to 20% percent is optimal for navigating the tradeoff between general language modeling capabilities and targeted benchmarks. We also use domain upsampling to characterize at scale the utility of individual datasets for improving various benchmarks by removing them during this final phase of training. This tool opens up the ability to experiment with the impact of different pretraining datasets at scale, but at an order of magnitude lower cost compared to full pretraining runs.
arxiv情報
| 著者 | Cody Blakeney,Mansheej Paul,Brett W. Larsen,Sean Owen,Jonathan Frankle |
| 発行日 | 2024-06-05 17:29:15+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google