要約
重量減衰は、大規模な言語モデル(LLMS)をトレーニングするための標準的な正則化手法です。
すべてのレイヤーに均一な減衰率を割り当てることは一般的ですが、このアプローチは、LLMの構造的多様性とモジュール全体のさまざまなスペクトル特性を見落としています。
この論文では、LLMの各モジュールに異なる重量減衰強度を適応的に割り当てるシンプルで効果的な方法であるAlphadecayを紹介します。
私たちのアプローチは、重量相関マトリックスの経験的スペクトル密度(ESD)を分析して「重尾性」を定量化する重尾部の自己正規化(HT-SR)理論によって導かれます。
より強力な機能学習を反映して、より顕著な重尾のESDを示すモジュールは弱い減衰を割り当てられ、より軽いテールスペクトルのモジュールはより強い減衰を受けます。
私たちのメソッドは、テーラードの重量減衰割り当てを活用して、スペクトルプロパティのモジュールごとの違いのバランスを取り、パフォーマンスの向上につながります。
60mから1Bまでのさまざまなモデルサイズの広範なトレーニングタスクは、Alphadecayが従来の均一な減衰およびその他の適応崩壊ベースラインよりも優れた困惑と一般化を達成することを示しています。
要約(オリジナル)
Weight decay is a standard regularization technique for training large language models (LLMs). While it is common to assign a uniform decay rate to every layer, this approach overlooks the structural diversity of LLMs and the varying spectral properties across modules. In this paper, we introduce AlphaDecay, a simple yet effective method that adaptively assigns different weight decay strengths to each module of an LLM. Our approach is guided by Heavy-Tailed Self-Regularization (HT-SR) theory, which analyzes the empirical spectral density (ESD) of weight correlation matrices to quantify ‘heavy-tailedness.’ Modules exhibiting more pronounced heavy-tailed ESDs, reflecting stronger feature learning, are assigned weaker decay, while modules with lighter-tailed spectra receive stronger decay. Our method leverages tailored weight decay assignments to balance the module-wise differences in spectral properties, leading to improved performance. Extensive pre-training tasks with various model sizes from 60M to 1B demonstrate that AlphaDecay achieves better perplexity and generalization than conventional uniform decay and other adaptive decay baselines.
arxiv情報
著者 | Di He,Ajay Jaiswal,Songjun Tu,Li Shen,Ganzhao Yuan,Shiwei Liu,Lu Yin |
発行日 | 2025-06-17 14:21:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google