Adaptive Step Sizes for Preconditioned Stochastic Gradient Descent

要約

この論文では、数値的に追跡可能であると特定された量、つまり勾配のリプシッツ定数と探索方向の局所分散の概念を利用することにより、確率的勾配降下法 (SGD) における適応ステップ サイズに対する新しいアプローチを提案します。
私たちの発見により、確率的最適化のためのほぼハイパーパラメータを必要としないアルゴリズムが得られます。このアルゴリズムは証明可能な収束特性を持ち、古典的な画像分類タスクにおいて真に問題に適応した動作を示します。
私たちのフレームワークは一般的なヒルベルト空間に設定されているため、内積の選択を通じて前処理を潜在的に含めることができます。

要約(オリジナル)

This paper proposes a novel approach to adaptive step sizes in stochastic gradient descent (SGD) by utilizing quantities that we have identified as numerically traceable — the Lipschitz constant for gradients and a concept of the local variance in search directions. Our findings yield a nearly hyperparameter-free algorithm for stochastic optimization, which has provable convergence properties and exhibits truly problem adaptive behavior on classical image classification tasks. Our framework is set in a general Hilbert space and thus enables the potential inclusion of a preconditioner through the choice of the inner product.

arxiv情報

著者 Frederik Köhne,Leonie Kreis,Anton Schiela,Roland Herzog
発行日 2024-09-18 15:47:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク