Non-Asymptotic Analysis of Online Multiplicative Stochastic Gradient Descent

要約

過去の研究では、ミニバッチ処理を介して行われた確率的勾配降下法 (SGD) 誤差の共分散が、その正則化を決定し、潜在的な低い点から逃れる上で重要な役割を果たすことが示されています。
この分野のいくつかの新しい研究に動機付けられて、ミニバッチ処理による SGD の同じ平均および共分散構造を持つノイズ クラスが同様の特性を持つことを示すことによって、普遍性の結果を証明します。
以前の研究で導入された乗法確率的勾配降下 (M-SGD) アルゴリズムを主に検討します。これは、ミニバッチ処理を介して行われる SGD アルゴリズムよりもはるかに一般的なノイズ クラスを持ちます。
ワッサースタイン距離で M-SGD アルゴリズムの非漸近境界を確立します。
また、M-SGD 誤差は、M-SGD アルゴリズムの任意の固定点で平均 $0$ を持つスケーリングされたガウス分布に近似していることも示します。

要約(オリジナル)

Past research has indicated that the covariance of the Stochastic Gradient Descent (SGD) error done via minibatching plays a critical role in determining its regularization and escape from low potential points. Motivated by some new research in this area, we prove universality results by showing that noise classes that have the same mean and covariance structure of SGD via minibatching have similar properties. We mainly consider the Multiplicative Stochastic Gradient Descent (M-SGD) algorithm as introduced in previous work, which has a much more general noise class than the SGD algorithm done via minibatching. We establish non asymptotic bounds for the M-SGD algorithm in the Wasserstein distance. We also show that the M-SGD error is approximately a scaled Gaussian distribution with mean $0$ at any fixed point of the M-SGD algorithm.

arxiv情報

著者 Riddhiman Bhattacharya,Tiefeng Jiang
発行日 2023-03-01 16:44:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク