Convergence of stochastic gradient descent schemes for Lojasiewicz-landscapes

要約

この記事では、基礎となる状況に関する弱い仮定の下で、運動量確率的勾配降下法 (MSGD) を含む確率的勾配降下法 (SGD) の収束を検討します。
より明確に、SGD が有界のままである場合、臨界点の数が可算数のみである場合、または目的関数がすべての解析関数と同様にすべての臨界レベルの周囲でロヤシェヴィッツ不等式を満たす場合、SGD は収束することを示します。
特に、ソフトプラス、シグモイド、双曲線正接などの解析活性化関数を備えたニューラル ネットワークの場合、トレーニングにおける信号と応答をモデル化する確率変数がコンパクトにサポートされている場合、SGD は有界にとどまるイベントに収束することを示します。

要約(オリジナル)

In this article, we consider convergence of stochastic gradient descent schemes (SGD), including momentum stochastic gradient descent (MSGD), under weak assumptions on the underlying landscape. More explicitly, we show that on the event that the SGD stays bounded we have convergence of the SGD if there is only a countable number of critical points or if the objective function satisfies Lojasiewicz-inequalities around all critical levels as all analytic functions do. In particular, we show that for neural networks with analytic activation function such as softplus, sigmoid and the hyperbolic tangent, SGD converges on the event of staying bounded, if the random variables modelling the signal and response in the training are compactly supported.

arxiv情報

著者 Steffen Dereich,Sebastian Kassing
発行日 2024-01-09 16:01:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 60J20, 62L20, 65C05, cs.LG, math.PR, math.ST, stat.TH パーマリンク