Noise-adaptive (Accelerated) Stochastic Heavy-Ball Momentum

要約

滑らかで強い凸面設定における確率的ヘビーボール (SHB) の運動量の収束を分析します。
キダンビら。
(2018) は、SHB (小さなミニバッチによる) は二次方程式であっても加速された収束速度を達成できないことを示し、SHB の実質的な利益はミニバッチ処理の副産物であると推測しています。
我々は、ミニバッチ サイズがあるしきい値よりも大きい場合に SHB が加速された速度を取得できることを示すことで、この主張を実証します。
特に、条件番号 $\kappa$ を持つ強凸二次方程式の場合、標準のステップ サイズと運動量パラメーターを使用した SHB の結果が $O\left(\exp(-\frac{T}{\sqrt{
\kappa}}) + \sigma \right)$ 収束率。$T$ は反復回数、$\sigma^2$ は確率的勾配の分散です。
ミニマイザーへの収束を確実にするために、ノイズ適応 $O\left(\exp\left(-\frac{T}{\sqrt{\kappa}} \right) + \ をもたらす多段階アプローチを提案します。
frac{\sigma}{T}\right)$ レート。
一般的な強凸関数の場合、指数関数的なステップ サイズとともに SHB の平均解釈を使用して、 $O\left(\exp\left(-\frac{T}{\kappa} \right) + \frac{
\sigma^2}{T} \right)$ はノイズ適応的な方法でミニマイザーに収束します。
最後に、提案されたアルゴリズムの有効性を経験的に実証します。

要約(オリジナル)

We analyze the convergence of stochastic heavy ball (SHB) momentum in the smooth, strongly-convex setting. Kidambi et al. (2018) show that SHB (with small mini-batches) cannot attain an accelerated rate of convergence even for quadratics, and conjecture that the practical gain of SHB is a by-product of mini-batching. We substantiate this claim by showing that SHB can obtain an accelerated rate when the mini-batch size is larger than some threshold. In particular, for strongly-convex quadratics with condition number $\kappa$, we prove that SHB with the standard step-size and momentum parameters results in an $O\left(\exp(-\frac{T}{\sqrt{\kappa}}) + \sigma \right)$ convergence rate, where $T$ is the number of iterations and $\sigma^2$ is the variance in the stochastic gradients. To ensure convergence to the minimizer, we propose a multi-stage approach that results in a noise-adaptive $O\left(\exp\left(-\frac{T}{\sqrt{\kappa}} \right) + \frac{\sigma}{T}\right)$ rate. For general strongly-convex functions, we use the averaging interpretation of SHB along with exponential step-sizes to prove an $O\left(\exp\left(-\frac{T}{\kappa} \right) + \frac{\sigma^2}{T} \right)$ convergence to the minimizer in a noise-adaptive manner. Finally, we empirically demonstrate the effectiveness of the proposed algorithms.

arxiv情報

著者 Anh Dang,Reza Babanezhad,Sharan Vaswani
発行日 2024-01-12 18:17:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク