Stepping on the Edge: Curvature Aware Learning Rate Tuners

要約

曲率情報、特にシャープネスとして知られる損失ヘッセ行列の最大固有値は、学習率チューナーの基礎を形成することがよくあります。
しかし、最近の研究では、曲率情報はトレーニング中に複雑なダイナミクスを経て、鋭さが増す段階から最終的に安定化する段階に至ることが示されています。
学習率調整と曲率の間の閉ループ フィードバック効果を分析します。
従来の学習率チューナーは、より優れたワンステップ損失削減効果をもたらす可能性がありますが、完全なバッチ領域での一定の学習率と比較すると、長期的には最終的にパフォーマンスが低下することがわかりました。
これらのモデルは鮮明さの安定化を壊しますが、これを学習率と曲率の関節ダイナミクスの簡略化したモデルを使用して説明します。
これらの効果をさらに調査するために、目標の瞬間的な進捗よりも長期的な曲率の安定化を優先する新しい学習率調整手法である曲率ダイナミクス認識チューニング (CDAT) を導入します。
完全なバッチ方式では、CDAT は深層学習の目標に対してプレフィックス付きのウォームアップ スケジュールに似た動作を示し、調整された一定の学習率を上回ります。
ミニバッチ方式では、確率論によって交絡効果が導入され、適切なバッチ サイズでの一部の学習率チューナーの以前の成功を説明できることが観察されます。
私たちの調査結果は、障害を診断し、効果的な適応学習率チューナーを設計するためには、貪欲な最小化を超えて、学習率と曲率の結合ダイナミクスを理解することが重要な役割を果たしていることを強調しています。

要約(オリジナル)

Curvature information — particularly, the largest eigenvalue of the loss Hessian, known as the sharpness — often forms the basis for learning rate tuners. However, recent work has shown that the curvature information undergoes complex dynamics during training, going from a phase of increasing sharpness to eventual stabilization. We analyze the closed-loop feedback effect between learning rate tuning and curvature. We find that classical learning rate tuners may yield greater one-step loss reduction, yet they ultimately underperform in the long term when compared to constant learning rates in the full batch regime. These models break the stabilization of the sharpness, which we explain using a simplified model of the joint dynamics of the learning rate and the curvature. To further investigate these effects, we introduce a new learning rate tuning method, Curvature Dynamics Aware Tuning (CDAT), which prioritizes long term curvature stabilization over instantaneous progress on the objective. In the full batch regime, CDAT shows behavior akin to prefixed warm-up schedules on deep learning objectives, outperforming tuned constant learning rates. In the mini batch regime, we observe that stochasticity introduces confounding effects that explain the previous success of some learning rate tuners at appropriate batch sizes. Our findings highlight the critical role of understanding the joint dynamics of the learning rate and curvature, beyond greedy minimization, to diagnose failures and design effective adaptive learning rate tuners.

arxiv情報

著者 Vincent Roulet,Atish Agarwala,Jean-Bastien Grill,Grzegorz Swirszcz,Mathieu Blondel,Fabian Pedregosa
発行日 2024-07-08 17:56:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク