要約
生成拡散モデルは、高次元データを生成するための主要なアプローチとして最近登場しました。
この論文では、これらのモデルのダイナミクスが、生成ダイナミクスを 2 つの異なる段階に分割する自発的な対称性の破れを示すことを示します。1) 中心固定点の周りの線形定常状態ダイナミクスと、2) 固定点に向けられたアトラクター ダイナミクスです。
データマニホールド。
これら 2 つの「フェーズ」は、中央の固定点の安定性の変化によって分離され、その結果生じる不安定性のウィンドウが、生成されるサンプルの多様性の原因となります。
理論的証拠と経験的証拠の両方を使用して、初期の変動は中心の固定点に戻るため、初期のダイナミクスの正確なシミュレーションは最終世代に大きく寄与しないことを示します。
この洞察を活用するために、モデルのパフォーマンスを大幅に向上させ、高速サンプラーで最大 3 倍の FID 改善を達成すると同時に、サンプルの多様性 (生成された CelebA 画像の人種構成など) も増加させるガウス後期初期化スキームを提案します。
私たちの研究は、より高いパフォーマンスとより偏りの少ない高速サンプラーをもたらす可能性のある拡散モデルの生成ダイナミクスを理解する新しい方法を提供します。
要約(オリジナル)
Generative diffusion models have recently emerged as a leading approach for generating high-dimensional data. In this paper, we show that the dynamics of these models exhibit a spontaneous symmetry breaking that divides the generative dynamics into two distinct phases: 1) A linear steady-state dynamics around a central fixed-point and 2) an attractor dynamics directed towards the data manifold. These two ‘phases’ are separated by the change in stability of the central fixed-point, with the resulting window of instability being responsible for the diversity of the generated samples. Using both theoretical and empirical evidence, we show that an accurate simulation of the early dynamics does not significantly contribute to the final generation, since early fluctuations are reverted to the central fixed point. To leverage this insight, we propose a Gaussian late initialization scheme, which significantly improves model performance, achieving up to 3x FID improvements on fast samplers, while also increasing sample diversity (e.g., racial composition of generated CelebA images). Our work offers a new way to understand the generative dynamics of diffusion models that has the potential to bring about higher performance and less biased fast-samplers.
arxiv情報
著者 | Gabriel Raya,Luca Ambrogioni |
発行日 | 2023-10-26 16:02:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google