On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization

要約

適応勾配法は深層学習の主力です。
ただし、非凸最適化に対する適応勾配法の収束保証については十分に研究されていません。
この論文では、AMSGrad、RMSProp、AdaGrad を含む適応勾配法の一般的なクラスに対するきめの細かい収束解析を提供します。
滑らかな非凸関数の場合、期待値における適応勾配法が一次定常点に収束することを証明します。
私たちの収束率は、次元の点で適応勾配法の既存の結果よりも優れています。
さらに、これまで確立されていなかった AMSGrad、RMSProp、AdaGrad の収束率の高い確率限界も証明します。
私たちの分析は、非凸対物レンズの最適化における適応勾配法の背後にあるメカニズムをより深く理解することに光を当てています。

要約(オリジナル)

Adaptive gradient methods are workhorses in deep learning. However, the convergence guarantees of adaptive gradient methods for nonconvex optimization have not been thoroughly studied. In this paper, we provide a fine-grained convergence analysis for a general class of adaptive gradient methods including AMSGrad, RMSProp and AdaGrad. For smooth nonconvex functions, we prove that adaptive gradient methods in expectation converge to a first-order stationary point. Our convergence rate is better than existing results for adaptive gradient methods in terms of dimension. In addition, we also prove high probability bounds on the convergence rates of AMSGrad, RMSProp as well as AdaGrad, which have not been established before. Our analyses shed light on better understanding the mechanism behind adaptive gradient methods in optimizing nonconvex objectives.

arxiv情報

著者 Dongruo Zhou,Jinghui Chen,Yuan Cao,Ziyan Yang,Quanquan Gu
発行日 2024-06-20 16:13:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク