Improving Implicit Regularization of SGD with Preconditioning for Least Square Problems

要約

確率的勾配降下法 (SGD) は、実際に強力なアルゴリズム正則化効果を示し、現代の機械学習の一般化において重要な役割を果たします。
ただし、以前の研究では、異なる次元に沿った不均一な最適化により、SGD の一般化パフォーマンスがリッジ回帰よりも劣る例が明らかになりました。
プリコンディショニングは、さまざまな方向で最適化のバランスを再調整することで、この問題に対する自然な解決策を提供します。
しかし、事前調整によって SGD の一般化パフォーマンスがどの程度向上するか、また、事前調整によってリッジ回帰との既存のギャップを埋めることができるかどうかは依然として不透明です。
この論文では、最小二乗問題の前処理を使用した SGD の汎化パフォーマンスを研究します。
事前条件付き SGD と (標準 \& 事前条件付き) リッジ回帰を包括的に比較します。
私たちの研究は、プリコンディショニングによる SGD の理解と改善に向けて、いくつかの重要な貢献をしています。
まず、任意の前提条件行列の下で、前提条件付き SGD とリッジ回帰の超過リスク限界 (汎化パフォーマンス) を確立します。
2 番目に、前条件付き SGD とリッジ回帰の過剰なリスクの特徴付けを活用して、(構築を通じて) (標準の事前条件付き) リッジ回帰を上回るパフォーマンスを発揮できる単純な前条件付き行列が存在することを示します。
最後に、私たちが提案する前処理行列は、リッジ回帰に対する理論的な利点を維持しながら、有限サンプルからのロバストな推定を可能にするのに十分簡単であることを示します。
私たちの経験的結果は理論的発見と一致しており、前処理された SGD の正則化効果が強化されていることを総合的に示しています。

要約(オリジナル)

Stochastic gradient descent (SGD) exhibits strong algorithmic regularization effects in practice and plays an important role in the generalization of modern machine learning. However, prior research has revealed instances where the generalization performance of SGD is worse than ridge regression due to uneven optimization along different dimensions. Preconditioning offers a natural solution to this issue by rebalancing optimization across different directions. Yet, the extent to which preconditioning can enhance the generalization performance of SGD and whether it can bridge the existing gap with ridge regression remains uncertain. In this paper, we study the generalization performance of SGD with preconditioning for the least squared problem. We make a comprehensive comparison between preconditioned SGD and (standard \& preconditioned) ridge regression. Our study makes several key contributions toward understanding and improving SGD with preconditioning. First, we establish excess risk bounds (generalization performance) for preconditioned SGD and ridge regression under an arbitrary preconditions matrix. Second, leveraging the excessive risk characterization of preconditioned SGD and ridge regression, we show that (through construction) there exists a simple preconditioned matrix that can outperform (standard \& preconditioned) ridge regression. Finally, we show that our proposed preconditioning matrix is straightforward enough to allow robust estimation from finite samples while maintaining a theoretical advantage over ridge regression. Our empirical results align with our theoretical findings, collectively showcasing the enhanced regularization effect of preconditioned SGD.

arxiv情報

著者 Junwei Su,Difan Zou,Chuan Wu
発行日 2024-03-13 14:42:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク