要約
言語モデルにおける重要なデータ サイズ、つまり素早い暗記からゆっくりとした一般化への根本的な変化を示すしきい値について調査します。
我々は、グロッキング構成の下での相転移をデータ効率仮説に形式化し、言語モデルのトレーニングダイナミクスにおけるデータの不足、充足、および余剰の状況を特定します。
初期化と重み減衰を再スケーリングすることにより、単純化された言語モデルで安定してグロッキングを再現するためのグロッキング構成を開発します。
一般化は、言語モデルが臨界サイズに達した場合にのみ発生することを示します。
サンプル単位およびモデル単位でグロッキングを分析し、提案されたデータ効率仮説を検証します。
私たちの実験では、言語データセットの重要なデータセット サイズでよりスムーズな相転移が発生することが明らかになりました。
モデルのサイズが大きくなるにつれて、この臨界点も大きくなり、より大きなモデルにはより多くのデータが必要になることがわかります。
私たちの結果は、言語モデルのトレーニングに対する理解を深め、言語モデルの学習メカニズムにおけるデータの役割について新しい視点を提供します。
要約(オリジナル)
We explore the critical data size in language models, a threshold that marks a fundamental shift from quick memorization to slow generalization. We formalize the phase transition under the grokking configuration into the Data Efficiency Hypothesis and identify data insufficiency, sufficiency, and surplus regimes in language models training dynamics. We develop a grokking configuration to reproduce grokking on simplistic language models stably by rescaling initialization and weight decay. We show that generalization occurs only when language models reach a critical size. We analyze grokking across sample-wise and model-wise, verifying the proposed data efficiency hypothesis. Our experiments reveal smoother phase transitions occurring at the critical dataset size for language datasets. As the model size increases, this critical point also becomes larger, indicating that larger models require more data. Our results deepen the understanding of language model training, offering a novel perspective on the role of data in the learning mechanism of language models.
arxiv情報
著者 | Xuekai Zhu,Yao Fu,Bowen Zhou,Zhouhan Lin |
発行日 | 2024-02-06 16:32:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google