Towards Theoretical Understandings of Self-Consuming Generative Models

要約

この論文では、自己消費ループ内で生成モデルをトレーニングするという新たな課題に取り組みます。このループでは、連続世代のモデルが、前世代の実データと合成データの混合物で再帰的にトレーニングされます。
私たちは、このトレーニング手順が、パラメトリック モデルやノンパラメトリック モデルを含む将来のモデルによって学習されるデータ分布にどのような影響を与えるかを厳密に評価するための理論的フレームワークを構築します。
具体的には、1 隠れ層ニューラル ネットワーク スコア関数を使用して、拡散モデルのさまざまな混合トレーニング シナリオの下で、将来のモデルによって生成された合成データ分布と元の実際のデータ分布の間の総変動 (TV) 距離の限界を導出します。
私たちの分析は、混合トレーニング データセットのサイズまたは実際のデータの割合が十分に大きいという条件下で、この距離を効果的に制御できることを示しています。
興味深いことに、合成データ量の拡大によって引き起こされる相転移がさらに明らかになり、TV 距離が初期上昇を示す一方で、しきい値点を超えると低下することが理論的に証明されました。
最後に、カーネル密度推定の結果を示し、混合データ トレーニングがエラー伝播に及ぼす影響など、微妙な洞察を提供します。

要約(オリジナル)

This paper tackles the emerging challenge of training generative models within a self-consuming loop, wherein successive generations of models are recursively trained on mixtures of real and synthetic data from previous generations. We construct a theoretical framework to rigorously evaluate how this training procedure impacts the data distributions learned by future models, including parametric and non-parametric models. Specifically, we derive bounds on the total variation (TV) distance between the synthetic data distributions produced by future models and the original real data distribution under various mixed training scenarios for diffusion models with a one-hidden-layer neural network score function. Our analysis demonstrates that this distance can be effectively controlled under the condition that mixed training dataset sizes or proportions of real data are large enough. Interestingly, we further unveil a phase transition induced by expanding synthetic data amounts, proving theoretically that while the TV distance exhibits an initial ascent, it declines beyond a threshold point. Finally, we present results for kernel density estimation, delivering nuanced insights such as the impact of mixed data training on error propagation.

arxiv情報

著者 Shi Fu,Sen Zhang,Yingjie Wang,Xinmei Tian,Dacheng Tao
発行日 2024-06-24 14:23:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク