Characterizing Dynamical Stability of Stochastic Gradient Descent in Overparameterized Learning

要約

最新の機械学習で見られるような、過剰にパラメータ化された最適化タスクの場合、一般に大域最小値は一意ではありません。
これらの設定における一般化を理解するには、最適化アルゴリズムがどの最小値に収束するかを検討することが重要です。
最適化アルゴリズムによって課されるダイナミクスの下では不安定な最小値が存在する可能性があるため、アルゴリズムが見つけることができる潜在的な最小値が制限されます。
この論文では、決定論的勾配降下法 (SGD) と確率的勾配降下法 (SGD) の両方について動的に安定/不安定な大域的最小値を特徴付けます。
特に、大域的極小値の周囲の局所的な力学に依存する特徴的なリアプノフ指数を導入し、このリアプノフ指数の符号によって SGD がそれぞれの大域的極小値で累積できるかどうかが決定されることを厳密に証明します。

要約(オリジナル)

For overparameterized optimization tasks, such as the ones found in modern machine learning, global minima are generally not unique. In order to understand generalization in these settings, it is vital to study to which minimum an optimization algorithm converges. The possibility of having minima that are unstable under the dynamics imposed by the optimization algorithm limits the potential minima that the algorithm can find. In this paper, we characterize the global minima that are dynamically stable/unstable for both deterministic and stochastic gradient descent (SGD). In particular, we introduce a characteristic Lyapunov exponent which depends on the local dynamics around a global minimum and rigorously prove that the sign of this Lyapunov exponent determines whether SGD can accumulate at the respective global minimum.

arxiv情報

著者 Dennis Chemnitz,Maximilian Engel
発行日 2024-09-18 17:44:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.DS, math.PR パーマリンク