Stochastic Differential Equations models for Least-Squares Stochastic Gradient Descent

要約

最小二乗問題の確率的勾配降下法 (SGD) の連続時間モデルのダイナミクスを研究します。
実際、Li らの研究を追求すると、
(2019) では、トレーニング損失 (有限サンプル) または母集団 (オンライン設定) のいずれかの場合に SGD をモデル化する確率微分方程式 (SDE) を分析します。
ダイナミクスの重要な定性的特徴は、サンプル サイズに関係なく、データの完全な補間装置が存在することです。
どちらのシナリオでも、(縮退している可能性がある)定常分布への正確な非漸近収束率を提供します。
さらに、この漸近分布について説明し、その平均値の推定値、そこからの偏差、およびステップサイズの大きさに関連するヘビーテールの出現の証明を提供します。
私たちの発見を裏付ける数値シミュレーションも示します。

要約(オリジナル)

We study the dynamics of a continuous-time model of the Stochastic Gradient Descent (SGD) for the least-square problem. Indeed, pursuing the work of Li et al. (2019), we analyze Stochastic Differential Equations (SDEs) that model SGD either in the case of the training loss (finite samples) or the population one (online setting). A key qualitative feature of the dynamics is the existence of a perfect interpolator of the data, irrespective of the sample size. In both scenarios, we provide precise, non-asymptotic rates of convergence to the (possibly degenerate) stationary distribution. Additionally, we describe this asymptotic distribution, offering estimates of its mean, deviations from it, and a proof of the emergence of heavy-tails related to the step-size magnitude. Numerical simulations supporting our findings are also presented.

arxiv情報

著者 Adrien Schertzer,Loucas Pillaud-Vivien
発行日 2024-07-02 14:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR パーマリンク