How Much Can We Forget about Data Contamination?

要約

トレーニングデータへのベンチマークデータの漏れは、大規模な言語モデル(LLM)の機能を評価するための重要な課題として浮上しています。
この作業では、小規模な汚染がベンチマーク評価を無効にするという一般的な仮定に挑戦します。
まず、3つの次元に沿ったスケーリングに基づいて、ベンチマークの過剰適合の大きさを実験的に定量化します。モデルパラメーターの数(1.6bまで)、例の回数(144まで)、トレーニングトークンの数(
最大40b)。
モデルとデータがチンチラのスケーリング法に従う場合、マイナーな汚染は実際に過剰適合につながります。
同時に、多くの現代LLMの特徴であるチンチラの5倍を超えてトレーニングデータが拡大されている場合、144回の汚染さえも忘れられる可能性があります。
OLMO-7Bの継続的な事前訓練は、これらの結果を裏付けています。
次に、体重減衰パラメーターが忘却の例に与える影響を調べ、経験的忘却が累積重量減衰よりも速く発生することを示します。
これにより、大規模なトレーニングの実行での忘却の程度を測定することができ、Lllama 3 405bを含む多くのLLMがトレーニングの開始時に見られるデータを忘れていることを示しています。

要約(オリジナル)

The leakage of benchmark data into the training data has emerged as a significant challenge for evaluating the capabilities of large language models (LLMs). In this work, we challenge the common assumption that small-scale contamination renders benchmark evaluations invalid. First, we experimentally quantify the magnitude of benchmark overfitting based on scaling along three dimensions: The number of model parameters (up to 1.6B), the number of times an example is seen (up to 144), and the number of training tokens (up to 40B). If model and data follow the Chinchilla scaling laws, minor contamination indeed leads to overfitting. At the same time, even 144 times of contamination can be forgotten if the training data is scaled beyond five times Chinchilla, a regime characteristic of many modern LLMs. Continual pre-training of OLMo-7B corroborates these results. Next, we study the impact of the weight decay parameter on example forgetting, showing that empirical forgetting occurs faster than the cumulative weight decay. This allows us to gauge the degree of example forgetting in large-scale training runs, indicating that many LLMs, including Lllama 3 405B, have forgotten the data seen at the beginning of training.

arxiv情報

著者 Sebastian Bordt,Suraj Srinivas,Valentyn Boreiko,Ulrike von Luxburg
発行日 2025-01-30 16:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク