要約
最近の実証研究では、拡散モデルが画像分布を効果的に学習し、新しいサンプルを生成できることが実証されました。
注目すべきことに、これらのモデルは、画像の次元が大きいにもかかわらず、少数のトレーニング サンプルでもこれを達成でき、次元の呪いを回避できます。
この研究では、重要な経験的観察を活用することにより、この現象に対する理論的洞察を提供します。(i) 画像データの固有次元の低さ、(ii) 画像データの多様体構造の和集合、および (iii) 画像データの低ランク特性
トレーニングされた拡散モデルのノイズ除去オートエンコーダー。
これらの観察は、画像データの基礎となるデータ分布を低ランクのガウスの混合として仮定し、仮定された分布のスコア関数に従って低ランクのモデルとしてノイズ除去オートエンコーダーをパラメータ化する動機を与えます。
これらの設定により、拡散モデルのトレーニング損失を最適化することは、トレーニング サンプルに対する正準部分空間クラスタリング問題を解くことと同等であることを厳密に示します。
この等価性に基づいて、基礎となる分布を学習するために必要なサンプルの最小数は、上記のデータとモデルの仮定の下で固有の次元に線形に比例することをさらに示します。
この洞察は、なぜ拡散モデルが次元性の呪いを打ち破り、学習分布で相転移を示すことができるのかを明らかにします。
さらに、部分空間と画像データの意味表現との間の対応関係を経験的に確立し、画像編集を容易にします。
これらの結果は、シミュレートされた分布と画像データセットの両方で裏付けられた実験結果によって検証されます。
要約(オリジナル)
Recent empirical studies have demonstrated that diffusion models can effectively learn the image distribution and generate new samples. Remarkably, these models can achieve this even with a small number of training samples despite a large image dimension, circumventing the curse of dimensionality. In this work, we provide theoretical insights into this phenomenon by leveraging key empirical observations: (i) the low intrinsic dimensionality of image data, (ii) a union of manifold structure of image data, and (iii) the low-rank property of the denoising autoencoder in trained diffusion models. These observations motivate us to assume the underlying data distribution of image data as a mixture of low-rank Gaussians and to parameterize the denoising autoencoder as a low-rank model according to the score function of the assumed distribution. With these setups, we rigorously show that optimizing the training loss of diffusion models is equivalent to solving the canonical subspace clustering problem over the training samples. Based on this equivalence, we further show that the minimal number of samples required to learn the underlying distribution scales linearly with the intrinsic dimensions under the above data and model assumptions. This insight sheds light on why diffusion models can break the curse of dimensionality and exhibit the phase transition in learning distributions. Moreover, we empirically establish a correspondence between the subspaces and the semantic representations of image data, facilitating image editing. We validate these results with corroborated experimental results on both simulated distributions and image datasets.
arxiv情報
著者 | Peng Wang,Huijie Zhang,Zekai Zhang,Siyi Chen,Yi Ma,Qing Qu |
発行日 | 2024-12-27 08:33:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google