要約
タイトル:確率的近接ポリャクステップサイズ
要約:
– 最近、確率的勾配降下法の適応的ステップサイズスキームとして、確率的ポリャクステップサイズ(SPS)が競争力のある方法として登場しています。
– ここでは、正則化項を扱えるProxSPSという近接変種を開発しています。
– SPSの近接変種を開発することは特に重要であり、SPSはうまく機能するために目的関数の下限を必要とします。目的関数が損失と正則化項の和である場合、和の下限の利用可能な推定値は疎かれる可能性があります。対照的に、ProxSPSでは損失の下限のみが必要で、しばしば簡単に利用可能です。
– 結果として、ProxSPSは、正則化が存在する場合でも調整しやすく、安定していることを示します。
– さらに、画像分類のタスクでは、ProxSPSはほとんど調整を行わずにAdamWと同じように機能し、重みパラメータの少ないネットワークの結果になります。
– また、ProxSPSについて、非スムース、スムース、弱く凸、強く凸の設定を含む包括的な収束分析を提供しています。
要約(オリジナル)
Recently, the stochastic Polyak step size (SPS) has emerged as a competitive adaptive step size scheme for stochastic gradient descent. Here we develop ProxSPS, a proximal variant of SPS that can handle regularization terms. Developing a proximal variant of SPS is particularly important, since SPS requires a lower bound of the objective function to work well. When the objective function is the sum of a loss and a regularizer, available estimates of a lower bound of the sum can be loose. In contrast, ProxSPS only requires a lower bound for the loss which is often readily available. As a consequence, we show that ProxSPS is easier to tune and more stable in the presence of regularization. Furthermore for image classification tasks, ProxSPS performs as well as AdamW with little to no tuning, and results in a network with smaller weight parameters. We also provide an extensive convergence analysis for ProxSPS that includes the non-smooth, smooth, weakly convex and strongly convex setting.
arxiv情報
| 著者 | Fabian Schaipp,Robert M. Gower,Michael Ulbrich |
| 発行日 | 2023-05-04 09:31:28+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI