要約
拡散モデルは、画像、オーディオ、タンパク質、材料などのデータモダリティに関する最先端の生成モデルです。
これらのモダリティは、フーリエドメインの指数関数的に減衰する分散と大きさの特性を共有しています。
標準的な拡散確率モデル(DDPM)添加剤ホワイトノイズの前方プロセスの下で、この特性は、低周波よりも信号対雑音比(SNR)の観点から高速化され、より早く破損します。
逆プロセスは、高周波の詳細の前に低周波情報を生成します。
この作業では、フーリエ空間での拡散モデルの前方プロセスの誘導バイアスを研究します。
DDPMの高周波成分のより速いノーシングが、逆のプロセスでの正常仮定に違反することを理論的に分析し、経験的に実証します。
私たちの実験は、これが高周波成分の生成品質の低下につながることを示しています。
次に、同じ速度ですべての周波数を破壊し、生成中に典型的な周波数階層を削除するフーリエ空間で代替前方プロセスを研究し、標準のイメージングベンチマークでDDPMと同等に機能しながら、高周波数がプライマリであるデータセットの顕著なパフォーマンスの改善を示します。
要約(オリジナル)
Diffusion models are state-of-the-art generative models on data modalities such as images, audio, proteins and materials. These modalities share the property of exponentially decaying variance and magnitude in the Fourier domain. Under the standard Denoising Diffusion Probabilistic Models (DDPM) forward process of additive white noise, this property results in high-frequency components being corrupted faster and earlier in terms of their Signal-to-Noise Ratio (SNR) than low-frequency ones. The reverse process then generates low-frequency information before high-frequency details. In this work, we study the inductive bias of the forward process of diffusion models in Fourier space. We theoretically analyse and empirically demonstrate that the faster noising of high-frequency components in DDPM results in violations of the normality assumption in the reverse process. Our experiments show that this leads to degraded generation quality of high-frequency components. We then study an alternate forward process in Fourier space which corrupts all frequencies at the same rate, removing the typical frequency hierarchy during generation, and demonstrate marked performance improvements on datasets where high frequencies are primary, while performing on par with DDPM on standard imaging benchmarks.
arxiv情報
著者 | Fabian Falck,Teodora Pandeva,Kiarash Zahirnia,Rachel Lawrence,Richard Turner,Edward Meeds,Javier Zazo,Sushrut Karmalkar |
発行日 | 2025-05-16 14:13:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google