Improving Pretraining Data Using Perplexity Correlations

要約

多くの場合、高品質の事前トレーニング データが高パフォーマンスの言語モデルの鍵と見なされます。
しかし、データ選択実験に必要な事前トレーニングの実行にはコストがかかるため、事前トレーニング データの理解の進歩は遅れています。
私たちは、これらのコストを回避し、独自の LLM トレーニングを行わずに高品質の事前トレーニング データを選択するフレームワークを紹介します。
私たちの研究は単純な観察に基づいています。多くの事前トレーニング テキストの LLM 損失は下流のベンチマーク パフォーマンスと相関しており、相関の高いドキュメントを選択することが効果的な事前トレーニング データ選択方法です。
私たちは、パープレキシティとベンチマークの相関関係の推定を中心としたデータ選択のための新しい統計フレームワークを構築し、数万の Web ドメインのテキストに関する Open LLM Leaderboard から取得した 90 個の LLM のサンプルを使用してデータ選択を実行します。
8 つのベンチマークでの 160M パラメーター スケールでの制御された事前トレーニング実験では、私たちのアプローチは、手作業で設計されたバイグラム分類器である DataComp-LM にある最良のデータ セレクターと一致しながら、すべてのベンチマークで DSIR を上回りました。

要約(オリジナル)

Quality pretraining data is often seen as the key to high-performance language models. However, progress in understanding pretraining data has been slow due to the costly pretraining runs required for data selection experiments. We present a framework that avoids these costs and selects high-quality pretraining data without any LLM training of our own. Our work is based on a simple observation: LLM losses on many pretraining texts are correlated with downstream benchmark performance, and selecting high-correlation documents is an effective pretraining data selection method. We build a new statistical framework for data selection centered around estimates of perplexity-benchmark correlations and perform data selection using a sample of 90 LLMs taken from the Open LLM Leaderboard on texts from tens of thousands of web domains. In controlled pretraining experiments at the 160M parameter scale on 8 benchmarks, our approach outperforms DSIR on every benchmark, while matching the best data selector found in DataComp-LM, a hand-engineered bigram classifier.

arxiv情報

著者 Tristan Thrush,Christopher Potts,Tatsunori Hashimoto
発行日 2024-09-09 17:23:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク