Elucidating The Design Space of Classifier-Guided Diffusion Generation

要約

条件付き拡散生成のガイダンスは、サンプルの品質と制御性にとって非常に重要です。
しかしながら、既存の指導スキームが望ましい。
一方で、分類子ガイダンスや分類子を使用しないガイダンスなどの主流の手法はどちらも、ラベル付きデータを使用した追加のトレーニングが必要ですが、これには時間がかかり、新しい条件に適応できません。
一方で、ユニバーサルガイダンスなどのトレーニング不要の方法は、より柔軟ではあるものの、同等のパフォーマンスをまだ実証していません。
この研究では、設計空間の包括的な調査を通じて、トレーニング不要の方法で既製の分類器を活用し、両方の長所を享受することで、既存のガイダンス スキームと比較して大幅なパフォーマンスの向上を達成できることを示します。
一般的なガイドラインとしてキャリブレーションを採用し、拡散生成をガイドするために事前トレーニングされた既製の分類器をより効果的に活用するためのいくつかの事前調整手法を提案します。
ImageNet での広範な実験により、私たちの提案方法が検証され、追加の計算コストをほとんどかけずに、既製の分類器を使用して最先端の拡散モデル (DDPM、EDM、DiT) をさらに改善 (最大 20%) できることが示されました。

公開されている事前トレーニング済み分類器の急増に伴い、私たちが提案するアプローチには大きな可能性があり、テキストから画像への生成タスクまで容易にスケールアップできます。
コードは https://github.com/AlexMaOLS/EluCD/tree/main で入手できます。

要約(オリジナル)

Guidance in conditional diffusion generation is of great importance for sample quality and controllability. However, existing guidance schemes are to be desired. On one hand, mainstream methods such as classifier guidance and classifier-free guidance both require extra training with labeled data, which is time-consuming and unable to adapt to new conditions. On the other hand, training-free methods such as universal guidance, though more flexible, have yet to demonstrate comparable performance. In this work, through a comprehensive investigation into the design space, we show that it is possible to achieve significant performance improvements over existing guidance schemes by leveraging off-the-shelf classifiers in a training-free fashion, enjoying the best of both worlds. Employing calibration as a general guideline, we propose several pre-conditioning techniques to better exploit pretrained off-the-shelf classifiers for guiding diffusion generation. Extensive experiments on ImageNet validate our proposed method, showing that state-of-the-art diffusion models (DDPM, EDM, DiT) can be further improved (up to 20%) using off-the-shelf classifiers with barely any extra computational cost. With the proliferation of publicly available pretrained classifiers, our proposed approach has great potential and can be readily scaled up to text-to-image generation tasks. The code is available at https://github.com/AlexMaOLS/EluCD/tree/main.

arxiv情報

著者 Jiajun Ma,Tianyang Hu,Wenjia Wang,Jiacheng Sun
発行日 2023-10-17 14:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク