Adaptive Step Sizes for Preconditioned Stochastic Gradient Descent

要約

この論文では、数値的に追跡可能であると特定された量、つまり勾配のリプシッツ定数と探索方向の局所分散の概念を利用することにより、確率的勾配降下法 (SGD) における適応ステップ サイズに対する新しいアプローチを提案します。
私たちの発見により、確率的最適化のためのほぼハイパーパラメータを必要としないアルゴリズムが得られます。このアルゴリズムは、二次問題に適用すると証明可能な収束特性を持ち、古典的な画像分類タスクで真に問題に適応した動作を示します。
私たちのフレームワークでは、プリコンディショナーを潜在的に組み込むことができるため、確率的 2 次最適化手法の適応ステップ サイズの実装が可能になります。

要約(オリジナル)

This paper proposes a novel approach to adaptive step sizes in stochastic gradient descent (SGD) by utilizing quantities that we have identified as numerically traceable — the Lipschitz constant for gradients and a concept of the local variance in search directions. Our findings yield a nearly hyperparameter-free algorithm for stochastic optimization, which has provable convergence properties when applied to quadratic problems and exhibits truly problem adaptive behavior on classical image classification tasks. Our framework enables the potential inclusion of a preconditioner, thereby enabling the implementation of adaptive step sizes for stochastic second-order optimization methods.

arxiv情報

著者 Frederik Köhne,Leonie Kreis,Anton Schiela,Roland Herzog
発行日 2023-11-28 17:03:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク