Bigger Isn’t Always Memorizing: Early Stopping Overparameterized Diffusion Models

要約

拡散確率モデルは現代の生成AIの基礎となっていますが、その一般化の根底にあるメカニズムはよく理解されていません。
実際、これらのモデルがトレーニングの損失を完全に最小限に抑えている場合、トレーニングセットに属するデータを生成するだけです。つまり、オーバーパラメーター化された体制で経験的に見られるように、記憶します。
この見解は、高度に過剰なパラメーター化された拡散モデルでは、記憶の開始前にトレーニング中に自然データドメインの一般化が徐々に達成されることを示します。
画像から言語拡散モデルまでの範囲の結果は、暗記時間がデータセットサイズに比例するという経験的法則を体系的に支持しています。
一般化と暗記は、時間スケール間の競争として最もよく理解されます。
この現象学は、ランダムなルールを使用して単純な確率論的文脈のない文法を学習する拡散モデルで回復していることを示します。一般化は、トレーニング時間が増加するにつれて、より深い文法規則の階層的な獲得に対応し、早期停止の一般化コストを特徴付けることができます。
これらの結果を相図にまとめます。
全体として、我々の結果は、原則的な早期止まる基準 – データセットサイズを使用したスケーリング – が、ハイパーパラメーターの転送とプライバシーに敏感なアプリケーションに直接影響を与え、暗記を回避しながら一般化を効果的に最適化できることをサポートしています。

要約(オリジナル)

Diffusion probabilistic models have become a cornerstone of modern generative AI, yet the mechanisms underlying their generalization remain poorly understood. In fact, if these models were perfectly minimizing their training loss, they would just generate data belonging to their training set, i.e., memorize, as empirically found in the overparameterized regime. We revisit this view by showing that, in highly overparameterized diffusion models, generalization in natural data domains is progressively achieved during training before the onset of memorization. Our results, ranging from image to language diffusion models, systematically support the empirical law that memorization time is proportional to the dataset size. Generalization vs. memorization is then best understood as a competition between time scales. We show that this phenomenology is recovered in diffusion models learning a simple probabilistic context-free grammar with random rules, where generalization corresponds to the hierarchical acquisition of deeper grammar rules as training time grows, and the generalization cost of early stopping can be characterized. We summarize these results in a phase diagram. Overall, our results support that a principled early-stopping criterion – scaling with dataset size – can effectively optimize generalization while avoiding memorization, with direct implications for hyperparameter transfer and privacy-sensitive applications.

arxiv情報

著者 Alessandro Favero,Antonio Sclocchi,Matthieu Wyart
発行日 2025-05-22 17:40:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク