要約
拡散生成モデルは、データサンプルに徐々にノイズを加えるプロセスを反転させることによって、ノイズをデータに変換する。異なるスケールのシステムを分析する物理学の繰り込み群の概念に触発され、我々は3つの重要な設計的側面を探求することによって拡散モデルを再検討する:1)拡散プロセスが動作する表現の選択(例:ピクセルベース、PCAベース、フーリエベース、ウェーブレットベース)、2)拡散中にデータが変換される事前分布(例:共分散$Sigma$を持つガウシアン)、3)データの異なる部分に別々に適用されるノイズレベルのスケジューリング(成分ごとのノイズスケジュールによって捕捉)。これらの選択に柔軟性を取り入れることで、設計の自由度を大幅に向上させた拡散生成モデルの統一的な枠組みを開発する。特に、標準的な拡散モデルと自己回帰モデル(任意のベース)の間を滑らかに補間するソフト条件モデルを導入し、これら2つのアプローチを概念的に橋渡しする。我々のフレームワークは、より効率的な学習とデータ生成につながる広い設計空間を開き、異なる生成アプローチと生成タスクを統合する新しいアーキテクチャへの道を開く。
要約(オリジナル)
Diffusion generative models transform noise into data by inverting a process that progressively adds noise to data samples. Inspired by concepts from the renormalization group in physics, which analyzes systems across different scales, we revisit diffusion models by exploring three key design aspects: 1) the choice of representation in which the diffusion process operates (e.g. pixel-, PCA-, Fourier-, or wavelet-basis), 2) the prior distribution that data is transformed into during diffusion (e.g. Gaussian with covariance $\Sigma$), and 3) the scheduling of noise levels applied separately to different parts of the data, captured by a component-wise noise schedule. Incorporating the flexibility in these choices, we develop a unified framework for diffusion generative models with greatly enhanced design freedom. In particular, we introduce soft-conditioning models that smoothly interpolate between standard diffusion models and autoregressive models (in any basis), conceptually bridging these two approaches. Our framework opens up a wide design space which may lead to more efficient training and data generation, and paves the way to novel architectures integrating different generative approaches and generation tasks.
arxiv情報
著者 | Mathis Gerdes,Max Welling,Miranda C. N. Cheng |
発行日 | 2024-10-03 16:51:14+00:00 |
arxivサイト | arxiv_id(pdf) |