CADS: Unleashing the Diversity of Diffusion Models through Condition-Annealed Sampling

要約

条件付き拡散モデルはデータ分布を良好にカバーすることが知られていますが、特に最適な画質を得るために分類子を使用しない高度なガイダンス スケールでサンプリングした場合や、小規模なデータセットでトレーニングした場合には、出力の多様性に依然として限界があります。
我々は、この問題が推論における条件付け信号の役割にあると考え、サンプル品質の損失を最小限に抑えながら、特に高いガイダンススケールで世代の多様性を高めることができる拡散モデルの改善されたサンプリング戦略を提供します。
私たちのサンプリング戦略は、推論中にスケジュールされた単調減少ガウス ノイズをコンディショニング ベクトルに追加することによってコンディショニング信号をアニーリングし、多様性と条件の調整のバランスをとります。
当社の条件アニール拡散サンプラー (CADS) は、事前トレーニングされたモデルおよびサンプリング アルゴリズムで使用でき、さまざまな条件付き生成タスクにおいて拡散モデルの多様性が高まることを示しています。
さらに、既存の事前トレーニングされた拡散モデルを使用して、CADS は、クラス条件付き ImageNet 生成に対して、それぞれ 256$\times$256 と 512$\times$512 で、新しい最先端の FID 1.70 と 2.31 を達成します。

要約(オリジナル)

While conditional diffusion models are known to have good coverage of the data distribution, they still face limitations in output diversity, particularly when sampled with a high classifier-free guidance scale for optimal image quality or when trained on small datasets. We attribute this problem to the role of the conditioning signal in inference and offer an improved sampling strategy for diffusion models that can increase generation diversity, especially at high guidance scales, with minimal loss of sample quality. Our sampling strategy anneals the conditioning signal by adding scheduled, monotonically decreasing Gaussian noise to the conditioning vector during inference to balance diversity and condition alignment. Our Condition-Annealed Diffusion Sampler (CADS) can be used with any pretrained model and sampling algorithm, and we show that it boosts the diversity of diffusion models in various conditional generation tasks. Further, using an existing pretrained diffusion model, CADS achieves a new state-of-the-art FID of 1.70 and 2.31 for class-conditional ImageNet generation at 256$\times$256 and 512$\times$512 respectively.

arxiv情報

著者 Seyedmorteza Sadat,Jakob Buhmann,Derek Bradley,Otmar Hilliges,Romann M. Weber
発行日 2024-05-13 14:02:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク