Exact Risk Curves of signSGD in High-Dimensions: Quantifying Preconditioning and Noise-Compression Effects

要約

近年、SignsGDは、実用的なオプティマイザーとAdamのような適応オプティマイザーを理解するための簡単なモデルの両方として興味を集めています。
SignsGDは前提条件の最適化に作用し、ノイズを再形成するという一般的なコンセンサスがありますが、理論的に解決可能な設定でこれらの効果を定量的に理解することは依然として困難です。
高次元の制限でsigngdの分析を提示し、リスクを説明するために制限されたSDEとODEを導き出します。
このフレームワークを使用して、SignsGDの4つの効果を定量化します。効果的な学習率、ノイズ圧縮、対角線の前処理、勾配ノイズの再形成です。
私たちの分析は実験的観察と一致していますが、これらの効果のデータとノイズ分布の依存性を定量化することにより、それを超えて動きます。
これらの結果がどのようにアダムに拡張されるかについての推測で結論付けます。

要約(オリジナル)

In recent years, signSGD has garnered interest as both a practical optimizer as well as a simple model to understand adaptive optimizers like Adam. Though there is a general consensus that signSGD acts to precondition optimization and reshapes noise, quantitatively understanding these effects in theoretically solvable settings remains difficult. We present an analysis of signSGD in a high dimensional limit, and derive a limiting SDE and ODE to describe the risk. Using this framework we quantify four effects of signSGD: effective learning rate, noise compression, diagonal preconditioning, and gradient noise reshaping. Our analysis is consistent with experimental observations but moves beyond that by quantifying the dependence of these effects on the data and noise distributions. We conclude with a conjecture on how these results might be extended to Adam.

arxiv情報

著者 Ke Liang Xiao,Noah Marshall,Atish Agarwala,Elliot Paquette
発行日 2025-02-21 17:38:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク