要約
深層生成モデルは、複雑なデータのモデリングにおいて大きな進歩を遂げ、サンプルの信頼性を識別する典型的な人間の能力を超える生成品質を示すことがよくあります。
間違いなく、この成功の主な原動力は、これらのモデルによって消費される大量の Web スケール データによって可能になっています。
これらのモデルの驚くべきパフォーマンスと入手のしやすさにより、Web には必然的に合成コンテンツがますます増えていくことになります。
このような事実は、将来の生成モデルの反復が、過去のモデルからクリーンなデータと人工的に生成されたデータの両方でトレーニングされることを直接意味します。
この論文では、実際のデータでの古典的なトレーニングから、純粋な合成データでトレーニングされた自己消費型の生成モデルまで、混合データセットでの生成モデルのトレーニングの影響を厳密に研究するためのフレームワークを開発します。
まず、初期生成モデルがデータ分布を十分に近似しており、クリーンなトレーニング データ (合成データに対する) の割合が十分に大きいという条件下で、反復トレーニングの安定性を証明します。
CIFAR10 と FFHQ で正規化フローと最先端の拡散モデルを繰り返しトレーニングすることで、合成画像と自然画像の両方に関する理論を経験的に検証します。
要約(オリジナル)
Deep generative models have made tremendous progress in modeling complex data, often exhibiting generation quality that surpasses a typical human’s ability to discern the authenticity of samples. Undeniably, a key driver of this success is enabled by the massive amounts of web-scale data consumed by these models. Due to these models’ striking performance and ease of availability, the web will inevitably be increasingly populated with synthetic content. Such a fact directly implies that future iterations of generative models will be trained on both clean and artificially generated data from past models. In this paper, we develop a framework to rigorously study the impact of training generative models on mixed datasets — from classical training on real data to self-consuming generative models trained on purely synthetic data. We first prove the stability of iterative training under the condition that the initial generative models approximate the data distribution well enough and the proportion of clean training data (w.r.t. synthetic data) is large enough. We empirically validate our theory on both synthetic and natural images by iteratively training normalizing flows and state-of-the-art diffusion models on CIFAR10 and FFHQ.
arxiv情報
著者 | Quentin Bertrand,Avishek Joey Bose,Alexandre Duplessis,Marco Jiralerspong,Gauthier Gidel |
発行日 | 2024-04-02 14:09:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google