D4: Improving LLM Pretraining via Document De-Duplication and Diversification

要約

近年、大規模言語モデル (LLM) のトレーニングに投入されるコンピューティングとデータの量が増加しています。通常は、大規模な Web コーパスからランダムに選択されたできるだけ多くのトークンに対して 1 パス学習を実行します。
インターネットのますます大規模な部分でのトレーニングは一貫したパフォーマンスの向上につながりますが、これらの向上の規模は規模が大きくなるにつれて減少し、単純な重複除外方法を超えてトレーニング前と下流のパフォーマンスに対するデータ選択の影響を調査する研究はほとんど行われていません。
ミンハッシュなど。
ここでは、事前トレーニングされたモデルの埋め込みを介して (重複排除されたデータに加えて) 慎重にデータを選択することで、トレーニングを高速化 (効率が 20% 向上) し、16 個の NLP タスクの平均ダウンストリーム精度 (最大 2%) が向上することを示します。
6.7Bモデルスケール。
さらに、データをインテリジェントに一貫して繰り返すと、ベースライン トレーニングよりも優れたパフォーマンスが得られることを示します (ランダム データを繰り返すと、ベースライン トレーニングよりもパフォーマンスが低下します)。
私たちの結果は、賢いデータ選択により LLM の事前トレーニングを大幅に改善できることを示し、できるだけ多くのデータで単一エポックをトレーニングするという一般的な慣行に疑問を投げかけ、ウェブのランダムサンプリングの限界を超えてモデルを改善し続ける道を示しています。
データ。

要約(オリジナル)

Over recent years, an increasing amount of compute and data has been poured into training large language models (LLMs), usually by doing one-pass learning on as many tokens as possible randomly selected from large-scale web corpora. While training on ever-larger portions of the internet leads to consistent performance improvements, the size of these improvements diminishes with scale, and there has been little work exploring the effect of data selection on pre-training and downstream performance beyond simple de-duplication methods such as MinHash. Here, we show that careful data selection (on top of de-duplicated data) via pre-trained model embeddings can speed up training (20% efficiency gains) and improves average downstream accuracy on 16 NLP tasks (up to 2%) at the 6.7B model scale. Furthermore, we show that repeating data intelligently consistently outperforms baseline training (while repeating random data performs worse than baseline training). Our results indicate that clever data selection can significantly improve LLM pre-training, calls into question the common practice of training for a single epoch on as much data as possible, and demonstrates a path to keep improving our models past the limits of randomly sampling web data.

arxiv情報

著者 Kushal Tirumala,Daniel Simig,Armen Aghajanyan,Ari S. Morcos
発行日 2023-08-23 17:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク