要約
除去スコアマッチングは、拡散ベースの生成モデルのパフォーマンスにおいて極めて重要な役割を果たします。
ただし、経験的最適スコア(除去スコアマッチングの正確な解決策)は、生成されたサンプルがトレーニングデータを複製する記憶に導きます。
しかし、実際には、明示的な正則化がなくても、適度な程度の暗記のみが観察されています。
この論文では、大きな学習率によって駆動される暗黙の正則化メカニズムを明らかにすることにより、この現象を調査します。
具体的には、小さなノイズ体制では、経験的最適スコアが高い不規則性を示すことを示します。
次に、十分な十分な学習速度で確率的勾配降下によって訓練された場合、ニューラルネットワークは任意の小さな過剰リスクで局所的な最小値に安定的に収束することができないことを証明します。
その結果、学習スコアは経験的最適スコアに任意に近づくことはできず、それにより暗記を軽減します。
分析を扱いやすくするために、1次元データと2層ニューラルネットワークを検討します。
実験は、1次元の設定を超えても、暗記を防ぐ際の学習率の重要な役割を検証します。
要約(オリジナル)
Denoising score matching plays a pivotal role in the performance of diffusion-based generative models. However, the empirical optimal score–the exact solution to the denoising score matching–leads to memorization, where generated samples replicate the training data. Yet, in practice, only a moderate degree of memorization is observed, even without explicit regularization. In this paper, we investigate this phenomenon by uncovering an implicit regularization mechanism driven by large learning rates. Specifically, we show that in the small-noise regime, the empirical optimal score exhibits high irregularity. We then prove that, when trained by stochastic gradient descent with a large enough learning rate, neural networks cannot stably converge to a local minimum with arbitrarily small excess risk. Consequently, the learned score cannot be arbitrarily close to the empirical optimal score, thereby mitigating memorization. To make the analysis tractable, we consider one-dimensional data and two-layer neural networks. Experiments validate the crucial role of the learning rate in preventing memorization, even beyond the one-dimensional setting.
arxiv情報
著者 | Yu-Han Wu,Pierre Marion,Gérard Biau,Claire Boyer |
発行日 | 2025-02-05 18:29:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google