Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity

要約

Adam は、言語モデルをトレーニングする際に SGD よりも優れたパフォーマンスを発揮します。
しかし、この利点は理論的には十分に理解されていません。Adam と SGD の以前の収束解析は主にステップ数 $T$ に焦点を当てており、非凸のケースではすでにミニマックス最適化されており、両方とも $\widetilde{O}(
T^{-1/4})$。
この研究では、優れた $\ell_\infty$-geometry の活用が SGD に対する Adam の主な利点であると主張します。
より具体的には、より一般的な $\ell_2$-geometry ではなく $\ell_\infty$-geometry の下で損失が滑らかであるという新しい仮定の下で、Adam の新しい収束解析を行います。これにより、GPT のより優れた経験的滑らかさ定数が得られます。
2 および ResNet モデル。
私たちの実験では、SGD がおそらく影響を受けないまま、有利な $\ell_\infty$-geometry が変更されると、Adam のパフォーマンスが大幅に低下することが確認されました。
また、新しいブロック単位の滑らかさの仮定の下で、収束解析をブロック単位の Adam に拡張します。

要約(オリジナル)

Adam outperforms SGD when training language models. Yet this advantage is not well-understood theoretically — previous convergence analysis for Adam and SGD mainly focuses on the number of steps $T$ and is already minimax-optimal in non-convex cases, which are both $\widetilde{O}(T^{-1/4})$. In this work, we argue that the exploitation of nice $\ell_\infty$-geometry is the key advantage of Adam over SGD. More specifically, we give a new convergence analysis for Adam under novel assumptions that loss is smooth under $\ell_\infty$-geometry rather than the more common $\ell_2$-geometry, which yields a much better empirical smoothness constant for GPT-2 and ResNet models. Our experiments confirm that Adam performs much worse when the favorable $\ell_\infty$-geometry is changed while SGD provably remains unaffected. We also extend the convergence analysis to blockwise Adam under novel blockwise smoothness assumptions.

arxiv情報

著者 Shuo Xie,Mohamad Amin Mohamadi,Zhiyuan Li
発行日 2024-10-10 17:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク