Understanding Optimization in Deep Learning with Central Flows

要約

ディープラーニングにおける最適化は、決定論的 (つまりフルバッチ) トレーニングの単純な設定であっても、依然としてよく理解されていません。
主な問題点は、オプティマイザの動作の多くが、「安定性のエッジ」と呼ばれる複雑な振動ダイナミクスによって暗黙的に決定されることです。
この論文の主な貢献は、オプティマイザの暗黙的な動作が「中心フロー」、つまり時間平均された最適化軌跡をモデル化する微分方程式によって明示的に捕捉できることを示すことです。
これらのフローが汎用ニューラル ネットワークの長期最適化軌跡を高い数値精度で経験的に予測できることを示します。
これらのフローを解釈することで、1) RMSProp が局所的な損失状況に適応する正確な意味、2) 適応オプティマイザーが暗黙的に低曲率領域に向かってナビゲートする「正則化による加速」メカニズムが明らかになります。
より大きな一歩を踏み出すことができます。
このメカニズムは、これらの適応オプティマイザーの有効性の鍵となります。
全体として、私たちは中央フローが深層学習の最適化について推論するための有望なツールであると信じています。

要約(オリジナル)

Optimization in deep learning remains poorly understood, even in the simple setting of deterministic (i.e. full-batch) training. A key difficulty is that much of an optimizer’s behavior is implicitly determined by complex oscillatory dynamics, referred to as the ‘edge of stability.’ The main contribution of this paper is to show that an optimizer’s implicit behavior can be explicitly captured by a ‘central flow:’ a differential equation which models the time-averaged optimization trajectory. We show that these flows can empirically predict long-term optimization trajectories of generic neural networks with a high degree of numerical accuracy. By interpreting these flows, we reveal for the first time 1) the precise sense in which RMSProp adapts to the local loss landscape, and 2) an ‘acceleration via regularization’ mechanism, wherein adaptive optimizers implicitly navigate towards low-curvature regions in which they can take larger steps. This mechanism is key to the efficacy of these adaptive optimizers. Overall, we believe that central flows constitute a promising tool for reasoning about optimization in deep learning.

arxiv情報

著者 Jeremy M. Cohen,Alex Damian,Ameet Talwalkar,Zico Kolter,Jason D. Lee
発行日 2024-10-31 17:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC, stat.ML パーマリンク