要約
Adamは、言語モデルをトレーニングするときにSGDを上回ります。
しかし、この利点は理論的には十分に理解されていません – AdamとSGDの以前の収束分析は、主にステップ$ t $の数に焦点を当てており、両方とも$ \ widetilde {o}(t^{-1/4})$です。
この作業では、素敵な$ \ ell_ \ infty $ geometryの搾取がSGDよりもAdamの重要な利点であると主張します。
より具体的には、ADAMの新しい収束分析を、より一般的な$ \ ELL_2 $ geometryではなく、損失が$ \ ell_ \ infty $ geometryの下でスムーズであるという新しい収束分析を提供します。
私たちの実験では、ADAMが好ましい$ \ ell_ \ infty $ geometryが変更された場合、SGDが影響を受けないようにすると、Adamがはるかに悪化することを確認しています。
また、収束分析を、新規のブロックワイズの滑らかさの仮定の下でブロックワイズアダムに拡張します。
要約(オリジナル)
Adam outperforms SGD when training language models. Yet this advantage is not well-understood theoretically — previous convergence analysis for Adam and SGD mainly focuses on the number of steps $T$ and is already minimax-optimal in non-convex cases, which are both $\widetilde{O}(T^{-1/4})$. In this work, we argue that the exploitation of nice $\ell_\infty$-geometry is the key advantage of Adam over SGD. More specifically, we give a new convergence analysis for Adam under novel assumptions that loss is smooth under $\ell_\infty$-geometry rather than the more common $\ell_2$-geometry, which yields a much better empirical smoothness constant for GPT-2 and ResNet models. Our experiments confirm that Adam performs much worse when the favorable $\ell_\infty$-geometry is changed while SGD provably remains unaffected. We also extend the convergence analysis to blockwise Adam under novel blockwise smoothness assumptions.
arxiv情報
著者 | Shuo Xie,Mohamad Amin Mohamadi,Zhiyuan Li |
発行日 | 2025-06-11 16:28:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google