Convergence of continuous-time stochastic gradient descent with applications to linear deep neural networks

要約

学習問題で予想される損失を最小限に抑えるための確率的勾配降下法プロセスの連続時間近似を研究します。
主な結果は、収束のための一般的な十分条件を確立し、(非確率的) 勾配降下法に対して確立された Chatterjee (2022) の結果を拡張します。
主な結果をオーバーパラメータ化された線形ニューラル ネットワーク トレーニングの場合にどのように適用できるかを示します。

要約(オリジナル)

We study a continuous-time approximation of the stochastic gradient descent process for minimizing the expected loss in learning problems. The main results establish general sufficient conditions for the convergence, extending the results of Chatterjee (2022) established for (nonstochastic) gradient descent. We show how the main result can be applied to the case of overparametrized linear neural network training.

arxiv情報

著者 Gabor Lugosi,Eulalia Nualart
発行日 2024-09-11 16:40:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク