Almost Sure Saddle Avoidance of Stochastic Gradient Methods without the Bounded Gradient Assumption

要約

確率的勾配降下 (SGD)、確率的重球 (SHB)、および確率的ネステロフ加速勾配 (SNAG) 法を含むさまざまな確率的勾配降下法が、厳密なサドル多様体をほぼ確実に回避することを証明します。
私たちの知る限りでは、SHB 法と SNAG 法でこのような結果が得られたのはこれが初めてです。
さらに、私たちの分析は、目的関数の有界勾配と一様に有界のノイズの必要性を取り除くことにより、SGD に関する以前の研究を拡張します。
代わりに、ニューラル ネットワークのトレーニングで通常見られる経験的リスク最小化問題で自然に満たされる、ノイズの多い勾配に対してより実用的な局所的有界仮定を導入します。

要約(オリジナル)

We prove that various stochastic gradient descent methods, including the stochastic gradient descent (SGD), stochastic heavy-ball (SHB), and stochastic Nesterov’s accelerated gradient (SNAG) methods, almost surely avoid any strict saddle manifold. To the best of our knowledge, this is the first time such results are obtained for SHB and SNAG methods. Moreover, our analysis expands upon previous studies on SGD by removing the need for bounded gradients of the objective function and uniformly bounded noise. Instead, we introduce a more practical local boundedness assumption for the noisy gradient, which is naturally satisfied in empirical risk minimization problems typically seen in training of neural networks.

arxiv情報

著者 Jun Liu,Ye Yuan
発行日 2023-02-15 18:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク