要約
拡散モデル (DM) は、画像合成などに大きな影響を与える生成モデルの一種です。
これらは、さまざまな生成タスクで最先端の生成結果を達成します。
生成を制御するために、テキストや境界ボックスなどの非常に多様な条件入力にアクセスできます。
この研究では、ノイズ除去プロセスをガイドする特徴調整としてガウス混合モデル (GMM) を利用する調整メカニズムを提案します。
集合論に基づいて、特徴とクラスに基づく条件付き潜在分布が大幅に異なることを示す包括的な理論分析を提供します。そのため、特徴に対する条件付き潜在分布は、クラスに基づく条件付けよりも欠陥生成が少なくなります。
混合ガウス モデルに基づいて条件付けされた 2 つの拡散モデルは、比較のために個別にトレーニングされます。
実験は私たちの発見を裏付けています。
負のガウス混合勾配 (NGMG) と呼ばれる新しい勾配関数が提案され、追加の分類器を使用した拡散モデルのトレーニングに適用されます。
トレーニングの安定性が向上しました。
また、低次元多様体によってサポートされる分布を学習する場合、NGMG がより合理的なコスト関数としてアース ムーバー距離 (Wasserstein) と同じ利点を共有することも理論的に証明します。
要約(オリジナル)
Diffusion models (DMs) are a type of generative model that has a huge impact on image synthesis and beyond. They achieve state-of-the-art generation results in various generative tasks. A great diversity of conditioning inputs, such as text or bounding boxes, are accessible to control the generation. In this work, we propose a conditioning mechanism utilizing Gaussian mixture models (GMMs) as feature conditioning to guide the denoising process. Based on set theory, we provide a comprehensive theoretical analysis that shows that conditional latent distribution based on features and classes is significantly different, so that conditional latent distribution on features produces fewer defect generations than conditioning on classes. Two diffusion models conditioned on the Gaussian mixture model are trained separately for comparison. Experiments support our findings. A novel gradient function called the negative Gaussian mixture gradient (NGMG) is proposed and applied in diffusion model training with an additional classifier. Training stability has improved. We also theoretically prove that NGMG shares the same benefit as the Earth Mover distance (Wasserstein) as a more sensible cost function when learning distributions supported by low-dimensional manifolds.
arxiv情報
| 著者 | Weiguo Lu,Xuan Wu,Deng Ding,Jinqiao Duan,Jirong Zhuang,Gangnan Yuan |
| 発行日 | 2024-02-01 10:44:08+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google