A Stochastic Quasi-Newton Method for Non-convex Optimization with Non-uniform Smoothness

要約

最適化アルゴリズムの古典的な収束解析は、広く採用されている均一平滑性の仮定に依存しています。
ただし、最近の実験研究では、機械学習の問題の多くが不均一な滑らかさを示すことが実証されています。これは、滑らかさ係数が普遍的な定数ではなくモデル パラメーターの関数であることを意味します。
特に、トレーニング軌道に沿った勾配ノルムに対して滑らかさが増大することが観察されている。
この現象を動機として、最近導入された $(L_0, L_1)$-smoothness は、従来の $L$-smoothness と比較して、より一般的な概念であり、滑らかさと勾配ノルムの間の正の関係を捉えています。
このタイプの不均一な滑らかさの下で、既存の文献は、 $\ を見つけるための最適な $\mathcal{O}(\epsilon^{-3})$ サンプル複雑度を得るために勾配クリッピング技術を利用することによって確率的一次アルゴリズムを設計しました。
epsilon$ – 近似一次定常解。
それにもかかわらず、準ニュートン法の研究はまだ不足しています。
準ニュートン法のより高い精度とよりロバスト性を考慮して、本論文では、滑らかさに不均一性が存在する場合の高速確率的準ニュートン法を提案します。
勾配クリッピングと分散削減を活用することで、私たちのアルゴリズムは最もよく知られている $\mathcal{O}(\epsilon^{-3})$ サンプルの複雑さを達成でき、簡単なハイパーパラメータ調整で収束速度が向上します。
私たちの数値実験は、私たちが提案したアルゴリズムが最先端のアプローチよりも優れていることを示しています。

要約(オリジナル)

Classical convergence analyses for optimization algorithms rely on the widely-adopted uniform smoothness assumption. However, recent experimental studies have demonstrated that many machine learning problems exhibit non-uniform smoothness, meaning the smoothness factor is a function of the model parameter instead of a universal constant. In particular, it has been observed that the smoothness grows with respect to the gradient norm along the training trajectory. Motivated by this phenomenon, the recently introduced $(L_0, L_1)$-smoothness is a more general notion, compared to traditional $L$-smoothness, that captures such positive relationship between smoothness and gradient norm. Under this type of non-uniform smoothness, existing literature has designed stochastic first-order algorithms by utilizing gradient clipping techniques to obtain the optimal $\mathcal{O}(\epsilon^{-3})$ sample complexity for finding an $\epsilon$-approximate first-order stationary solution. Nevertheless, the studies of quasi-Newton methods are still lacking. Considering higher accuracy and more robustness for quasi-Newton methods, in this paper we propose a fast stochastic quasi-Newton method when there exists non-uniformity in smoothness. Leveraging gradient clipping and variance reduction, our algorithm can achieve the best-known $\mathcal{O}(\epsilon^{-3})$ sample complexity and enjoys convergence speedup with simple hyperparameter tuning. Our numerical experiments show that our proposed algorithm outperforms the state-of-the-art approaches.

arxiv情報

著者 Zhenyu Sun,Ermin Wei
発行日 2024-09-26 15:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク