要約
我々は、過剰パラメータ化領域における大規模なクラスのノイズを含む勾配降下システムの限界ダイナミクスを研究します。
この領域では、損失のグローバル ミニマイザーのセットが大きく、このゼロ損失セットの近傍で初期化されると、ノイズの多い勾配降下アルゴリズムがこのセットに沿ってゆっくりと進化します。
場合によっては、このゆっくりとした進化がより優れた一般化特性に関連していることがあります。
我々は、小さなステップサイズの限界におけるノイズの多い勾配降下システムの広範なクラスに対するこの進化を特徴づけます。
私たちの結果は、ノイズの構造が制限プロセスの形式だけでなく、進化が起こる時間スケールにも影響を与えることを示しています。
この理論をドロップアウト、ラベル ノイズ、および古典的な SGD (ミニバッチ) ノイズに適用し、これらが異なる 2 つの時間スケールで進化することを示します。
古典的な SGD は両方の時間スケールで些細な進化さえももたらし、正則化には追加のノイズが必要であることを意味します。
結果はニューラル ネットワークのトレーニングからインスピレーションを得ていますが、定理は自明ではないゼロ損失セットを持つあらゆる損失のノイズを含む勾配降下法に適用されます。
要約(オリジナル)
We study the limiting dynamics of a large class of noisy gradient descent systems in the overparameterized regime. In this regime the set of global minimizers of the loss is large, and when initialized in a neighbourhood of this zero-loss set a noisy gradient descent algorithm slowly evolves along this set. In some cases this slow evolution has been related to better generalisation properties. We characterize this evolution for the broad class of noisy gradient descent systems in the limit of small step size. Our results show that the structure of the noise affects not just the form of the limiting process, but also the time scale at which the evolution takes place. We apply the theory to Dropout, label noise and classical SGD (minibatching) noise, and show that these evolve on different two time scales. Classical SGD even yields a trivial evolution on both time scales, implying that additional noise is required for regularization. The results are inspired by the training of neural networks, but the theorems apply to noisy gradient descent of any loss that has a non-trivial zero-loss set.
arxiv情報
著者 | Anna Shalova,André Schlichting,Mark Peletier |
発行日 | 2024-04-18 16:13:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google