要約
このホワイトペーパーでは、確率的勾配降下(SGD)が一般的な非凸型損失関数のグローバルな最小値に到達するまでにかかる時間を調べます。
ランダムに摂動した動的システムと大規模な偏差理論のレンズを通してこの質問にアプローチし、上限と下限を一致させることにより、SGDのグローバルな収束時間の緊密な特性評価を提供します。
これらの境界は、アルゴリズムが特定の初期化からグローバルなミニマイザーに到達するために克服する必要がある最も「費用のかかる」セットのセットによって支配されています。
最後に、深いニューラルネットワークのトレーニングへのアプリケーションに動機付けられ、浅い局所ミニマを使用した損失関数の分析の一連の改良と拡張も提供します。
要約(オリジナル)
In this paper, we examine the time it takes for stochastic gradient descent (SGD) to reach the global minimum of a general, non-convex loss function. We approach this question through the lens of randomly perturbed dynamical systems and large deviations theory, and we provide a tight characterization of the global convergence time of SGD via matching upper and lower bounds. These bounds are dominated by the most ‘costly’ set of obstacles that the algorithm may need to overcome to reach a global minimizer from a given initialization, coupling in this way the global geometry of the underlying loss landscape with the statistics of the noise entering the process. Finally, motivated by applications to the training of deep neural networks, we also provide a series of refinements and extensions of our analysis for loss functions with shallow local minima.
arxiv情報
著者 | Waïss Azizian,Franck Iutzeler,Jérôme Malick,Panayotis Mertikopoulos |
発行日 | 2025-03-20 17:54:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google