Why Warmup the Learning Rate? Underlying Mechanisms and Improvements

要約

深層学習では、学習率 $\eta$ をウォームアップするのが一般的であり、多くの場合、$\eta_{\text{init}} = 0$ と所定の目標 $\eta_{\text{trgt}} の間の線形スケジュールによって行われます。
$。
この論文では、SGD と Adam を使用した体系的な実験を通じて、ウォームアップの圧倒的なメリットは、ネットワークをより条件の整った領域に強制的に移動させることで、ネットワークがより大きな $\eta_{\text{trgt}}$ を許容できるようにすることで生じることを示します。
喪失風景。
より大きな $\eta_{\text{trgt}}$ を処理できるため、最終的なパフォーマンスを向上させながら、ハイパーパラメーターの調整がより堅牢になります。
ウォームアップ期間中に、トレーニングが漸進的シャープニング段階で開始されるかシャープネス低減段階で開始されるかに応じて、さまざまな操作体制が明らかになります。これは、初期化とパラメータ化によって異なります。
これらの洞察を使用して、損失カタパルト メカニズムを利用して $\eta_{\text{init}}$ を適切に選択する方法を示します。これにより、ウォームアップ ステップの数が節約され、場合によってはウォームアップの必要性が完全に排除されます。
また、ウォームアップと同様の利点を提供する Adam の分散の初期化も提案します。

要約(オリジナル)

It is common in deep learning to warm up the learning rate $\eta$, often by a linear schedule between $\eta_{\text{init}} = 0$ and a predetermined target $\eta_{\text{trgt}}$. In this paper, we show through systematic experiments using SGD and Adam that the overwhelming benefit of warmup arises from allowing the network to tolerate larger $\eta_{\text{trgt}}$ by forcing the network to more well-conditioned areas of the loss landscape. The ability to handle larger $\eta_{\text{trgt}}$ makes hyperparameter tuning more robust while improving the final performance. We uncover different regimes of operation during the warmup period, depending on whether training starts off in a progressive sharpening or sharpness reduction phase, which in turn depends on the initialization and parameterization. Using these insights, we show how $\eta_{\text{init}}$ can be properly chosen by utilizing the loss catapult mechanism, which saves on the number of warmup steps, in some cases completely eliminating the need for warmup. We also suggest an initialization for the variance in Adam which provides benefits similar to warmup.

arxiv情報

著者 Dayal Singh Kalra,Maissam Barkeshli
発行日 2024-06-13 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML パーマリンク