要約
Adam は、言語モデルをトレーニングする際に SGD よりも優れたパフォーマンスを発揮します。
しかし、この利点は理論的には十分に理解されていません。Adam と SGD の以前の収束解析は主にステップ数 $T$ に焦点を当てており、非凸のケースではすでにミニマックス最適化されており、両方とも $\widetilde{O}(
T^{-1/4})$。
この研究では、優れた $\ell_\infty$-geometry の活用が SGD に対する Adam の主な利点であると主張します。
より具体的には、より一般的な $\ell_2$-geometry ではなく $\ell_\infty$-geometry の下で損失が滑らかであるという新しい仮定の下で、Adam の新しい収束解析を行います。これにより、GPT のより優れた経験的滑らかさ定数が得られます。
2 および ResNet モデル。
私たちの実験では、SGD がおそらく影響を受けないまま、有利な $\ell_\infty$-geometry が変更されると、Adam のパフォーマンスが大幅に低下することが確認されました。
また、新しいブロック単位の滑らかさの仮定の下で、収束解析をブロック単位の Adam に拡張します。
要約(オリジナル)
Adam outperforms SGD when training language models. Yet this advantage is not well-understood theoretically — previous convergence analysis for Adam and SGD mainly focuses on the number of steps $T$ and is already minimax-optimal in non-convex cases, which are both $\widetilde{O}(T^{-1/4})$. In this work, we argue that the exploitation of nice $\ell_\infty$-geometry is the key advantage of Adam over SGD. More specifically, we give a new convergence analysis for Adam under novel assumptions that loss is smooth under $\ell_\infty$-geometry rather than the more common $\ell_2$-geometry, which yields a much better empirical smoothness constant for GPT-2 and ResNet models. Our experiments confirm that Adam performs much worse when the favorable $\ell_\infty$-geometry is changed while SGD provably remains unaffected. We also extend the convergence analysis to blockwise Adam under novel blockwise smoothness assumptions.
arxiv情報
著者 | Shuo Xie,Mohamad Amin Mohamadi,Zhiyuan Li |
発行日 | 2024-10-10 17:58:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google