On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling

要約

大規模なビジョンモデルと言語モデルをトレーニングするための主要なパラダイムは、HE初期化と単一のグローバル学習率(\ TextIT {Standard Parameterization}、SP)です。
その実際的な成功にもかかわらず、標準的なパラメーター化は理論的な観点からはあまり理解されていません。既存の無限幅の理論は、大規模な学習率の下での不安定性と安定した学習率の下での機能学習の消失を予測します。
ただし、経験的に最適な学習率は、理論的に予測されたよりもはるかに遅く崩壊します。
ニューラルネットワークトレーニングのダイナミクスを慎重に研究することにより、この矛盾は、カタパルト効果や重量と着信活性化の間の整合の欠如などの有限幅の現象によって完全には説明されていないことを実証します。
代わりに、見かけの矛盾が損失関数を考慮することで根本的に解決できることを示します。平均四角誤差(MSE)損失とは対照的に、交差エントロピー(CE)損失の下で、中間\ textIT {制御された分岐}レジームが現れます。
大規模な学習レート下での安定したトレーニングにより、すべての隠れた層で規模の永続的な機能の進化が可能になります。これは、SPの実際的な成功に重要です。
オプティマイザー(SGD、ADAM)、アーキテクチャ(MLP、GPT)、およびデータモダリティ(ビジョン、言語)を介した実験では、MSE損失の下ではなく、この制御された分岐制度でニューラルネットワークが動作することを検証します。
私たちの経験的証拠は、経験的に最適な学習速度指数を予測するのに幅を拡大する考慮事項が驚くほど有用であることを示唆しています。
最後に、分析は、標準の初期化のために最近提案された層状学習率のスケーリングの有効性と制限を明確にします。

要約(オリジナル)

The dominant paradigm for training large-scale vision and language models is He initialization and a single global learning rate (\textit{standard parameterization}, SP). Despite its practical success, standard parametrization remains poorly understood from a theoretical perspective: Existing infinite-width theory would predict instability under large learning rates and vanishing feature learning under stable learning rates. However, empirically optimal learning rates consistently decay much slower than theoretically predicted. By carefully studying neural network training dynamics, we demonstrate that this discrepancy is not fully explained by finite-width phenomena such as catapult effects or a lack of alignment between weights and incoming activations. We instead show that the apparent contradiction can be fundamentally resolved by taking the loss function into account: In contrast to Mean Squared Error (MSE) loss, we prove that under cross-entropy (CE) loss, an intermediate \textit{controlled divergence} regime emerges, where logits diverge but loss, gradients, and activations remain stable. Stable training under large learning rates enables persistent feature evolution at scale in all hidden layers, which is crucial for the practical success of SP. In experiments across optimizers (SGD, Adam), architectures (MLPs, GPT) and data modalities (vision, language), we validate that neural networks operate in this controlled divergence regime under CE loss but not under MSE loss. Our empirical evidence suggests that width-scaling considerations are surprisingly useful for predicting empirically optimal learning rate exponents. Finally, our analysis clarifies the effectiveness and limitations of recently proposed layerwise learning rate scalings for standard initialization.

arxiv情報

著者 Moritz Haas,Sebastian Bordt,Ulrike von Luxburg,Leena Chennuru Vankadara
発行日 2025-05-28 15:40:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク