要約
拡散モデルは、生成プロセスにおける条件付き分布のパラメーター共有と、階層全体にわたる独立した項としての損失の効率的な計算という 2 つの改良点を備えた階層変分オートエンコーダー (VAE) と見なすことができます。
これらの利点を維持しながらモデルに柔軟性を追加する、普及モデルへの 2 つの変更を検討します。
まず、拡散プロセスにデータと深さに依存する平均関数を導入します。これにより、拡散損失が修正されます。
私たちが提案したフレームワークである DiffEnc は、CIFAR-10 の可能性において統計的に有意な改善を達成しました。
次に、リバース エンコーダ プロセスと生成プロセスのノイズ分散の比を 1 に固定するのではなく、自由な重みパラメータにします。これにより、理論的な洞察が得られます。有限の深さの階層の場合、証拠の下限 (ELBO)
重み付け拡散損失アプローチの目的として、また特に推論用のノイズ スケジュールを最適化する目的として使用できます。
一方、深さが無限の階層の場合、明確に定義された ELBO を得るには、重みパラメータを 1 にする必要があります。
要約(オリジナル)
Diffusion models may be viewed as hierarchical variational autoencoders (VAEs) with two improvements: parameter sharing for the conditional distributions in the generative process and efficient computation of the loss as independent terms over the hierarchy. We consider two changes to the diffusion model that retain these advantages while adding flexibility to the model. Firstly, we introduce a data- and depth-dependent mean function in the diffusion process, which leads to a modified diffusion loss. Our proposed framework, DiffEnc, achieves a statistically significant improvement in likelihood on CIFAR-10. Secondly, we let the ratio of the noise variance of the reverse encoder process and the generative process be a free weight parameter rather than being fixed to 1. This leads to theoretical insights: For a finite depth hierarchy, the evidence lower bound (ELBO) can be used as an objective for a weighted diffusion loss approach and for optimizing the noise schedule specifically for inference. For the infinite-depth hierarchy, on the other hand, the weight parameter has to be 1 to have a well-defined ELBO.
arxiv情報
著者 | Beatrix M. G. Nielsen,Anders Christensen,Andrea Dittadi,Ole Winther |
発行日 | 2024-02-08 12:31:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google