Limit Theorems for Stochastic Gradient Descent with Infinite Variance

要約

確率的勾配降下法は、機械学習でモデルをトレーニングするための最も一般的なアプローチとして、特にここ数十年で非常に人気を得た古典的なアルゴリズムです。
確率的勾配が有限の分散を持つと仮定される場合、このアルゴリズムはよく研究されていますが、無限の分散勾配の場合の理論的特性に対処する研究は大幅に少なくなっています。
この論文では、確率的勾配がインデックス $\alpha\in(1,2)$ とともに規則的に変化すると仮定して、無限分散の確率的勾配のコンテキストで確率的勾配降下の漸近挙動を確立します。
この文脈で最も近い結果は 1969 年に確立されており、一次元の場合であり、確率的勾配がより限定的なクラスの分布に属すると仮定されています。
これを多次元の場合に拡張し、より広範なクラスの無限分散分布をカバーします。
示したように、確率的勾配降下法アルゴリズムの漸近分布は、適切な安定したレヴィ過程によって駆動される、適切に定義されたオーンシュタイン・ウーレンベック過程の定常分布として特徴付けることができます。
さらに、線形回帰モデルとロジスティック回帰モデルにおけるこれらの結果の応用を検討します。

要約(オリジナル)

Stochastic gradient descent is a classic algorithm that has gained great popularity especially in the last decades as the most common approach for training models in machine learning. While the algorithm has been well-studied when stochastic gradients are assumed to have a finite variance, there is significantly less research addressing its theoretical properties in the case of infinite variance gradients. In this paper, we establish the asymptotic behavior of stochastic gradient descent in the context of infinite variance stochastic gradients, assuming that the stochastic gradient is regular varying with index $\alpha\in(1,2)$. The closest result in this context was established in 1969 , in the one-dimensional case and assuming that stochastic gradients belong to a more restrictive class of distributions. We extend it to the multidimensional case, covering a broader class of infinite variance distributions. As we show, the asymptotic distribution of the stochastic gradient descent algorithm can be characterized as the stationary distribution of a suitably defined Ornstein-Uhlenbeck process driven by an appropriate stable L\’evy process. Additionally, we explore the applications of these results in linear regression and logistic regression models.

arxiv情報

著者 Jose Blanchet,Aleksandar Mijatović,Wenhao Yang
発行日 2024-10-25 17:32:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR, stat.ML パーマリンク