High Probability Convergence of Adam Under Unbounded Gradients and Affine Variance Noise

要約

本稿では、非制約非凸平滑確率最適化における適応モーメント推定(Adaptive Moment Estimation: Adam)アルゴリズムの収束について研究する。機械学習分野で広く用いられているにもかかわらず、その理論的特性は限定的なままである。先行研究では、主に期待値の観点からアダムの収束性を研究しており、一様確率的な有界勾配や事前知識の問題依存性のような強い仮定を必要とすることが多い。その結果、これらの知見の現実的なシナリオへの適用には制約があった。これらの制約を克服するために、我々は深い解析を行い、Adamが座標ワイズ’アフィン’分散ノイズの下で、$mathcal{O}left({rm poly}(\log T)/sqrt{T}right)$ の割合で高確率で定常点に収束できることを示す。さらに、Adamはその勾配の大きさを$mathcal{O}left({rm poly}(\log T)left)$のオーダー内に閉じ込めることが明らかになった。最後に、補正項を1つ除いたAdamの簡略版も調べ、ノイズレベルに適応した収束率を得た。

要約(オリジナル)

In this paper, we study the convergence of the Adaptive Moment Estimation (Adam) algorithm under unconstrained non-convex smooth stochastic optimizations. Despite the widespread usage in machine learning areas, its theoretical properties remain limited. Prior researches primarily investigated Adam’s convergence from an expectation view, often necessitating strong assumptions like uniformly stochastic bounded gradients or problem-dependent knowledge in prior. As a result, the applicability of these findings in practical real-world scenarios has been constrained. To overcome these limitations, we provide a deep analysis and show that Adam could converge to the stationary point in high probability with a rate of $\mathcal{O}\left({\rm poly}(\log T)/\sqrt{T}\right)$ under coordinate-wise ‘affine’ variance noise, not requiring any bounded gradient assumption and any problem-dependent knowledge in prior to tune hyper-parameters. Additionally, it is revealed that Adam confines its gradients’ magnitudes within an order of $\mathcal{O}\left({\rm poly}(\log T)\right)$. Finally, we also investigate a simplified version of Adam without one of the corrective terms and obtain a convergence rate that is adaptive to the noise level.

arxiv情報

著者 Yusu Hong,Junhong Lin
発行日 2023-11-03 15:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク