Adam with model exponential moving average is effective for nonconvex optimization

要約

この研究では、大規模で複雑なモデルをトレーニングするための 2 つの最新の最適化手法、(i) Adam などの適応最適化アルゴリズム、および (ii) モデルの指数移動平均 (EMA) の理論的分析を提供します。
具体的には、モデル EMA を使用した Adam のクリップ バージョンが、滑らかと非滑らかの両方のさまざまな非凸最適化設定で最適な収束率を達成することを示します。
さらに、異なる座標間でスケールが大きく異なる場合、アダムの座標方向の適応性が明らかに有利であることを示します。
特に、これまでの Adam の分析とは異なり、私たちの分析はその中核要素であるモメンタムと割引要因、およびモデル EMA に決定的に依存しており、実際の幅広い適用を動機付けています。

要約(オリジナル)

In this work, we offer a theoretical analysis of two modern optimization techniques for training large and complex models: (i) adaptive optimization algorithms, such as Adam, and (ii) the model exponential moving average (EMA). Specifically, we demonstrate that a clipped version of Adam with model EMA achieves the optimal convergence rates in various nonconvex optimization settings, both smooth and nonsmooth. Moreover, when the scale varies significantly across different coordinates, we demonstrate that the coordinate-wise adaptivity of Adam is provably advantageous. Notably, unlike previous analyses of Adam, our analysis crucially relies on its core elements — momentum and discounting factors — as well as model EMA, motivating their wide applications in practice.

arxiv情報

著者 Kwangjun Ahn,Ashok Cutkosky
発行日 2024-10-30 17:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク