Guiding a Diffusion Model with a Bad Version of Itself

要約

画像生成拡散モデルで関心のある主な軸は、画像の品質、結果の変動量、および結果が特定の条件 (クラス ラベルやテキスト プロンプトなど) とどの程度一致しているかです。
一般的な分類子を使用しないガイダンス アプローチでは、無条件モデルを使用して条件付きモデルをガイドし、ばらつきを減らしながら、より適切な即時位置合わせと高品質の画像を同時に実現します。
これらの効果は本質的に絡み合っているように見えるため、制御するのが困難です。
無条件モデルではなく、モデル自体のより小さく、あまり訓練されていないバージョンを使用して生成をガイドすることにより、変動量を損なうことなく画質のもつれのない制御を得ることが可能であるという驚くべき観察を行いました。
これにより、ImageNet の生成が大幅に向上し、一般に利用可能なネットワークを使用して、レコード FID が 64×64 で 1.01、512×512 で 1.25 に設定されます。
さらに、この手法は無条件拡散モデルにも適用でき、品質が大幅に向上します。

要約(オリジナル)

The primary axes of interest in image-generating diffusion models are image quality, the amount of variation in the results, and how well the results align with a given condition, e.g., a class label or a text prompt. The popular classifier-free guidance approach uses an unconditional model to guide a conditional model, leading to simultaneously better prompt alignment and higher-quality images at the cost of reduced variation. These effects seem inherently entangled, and thus hard to control. We make the surprising observation that it is possible to obtain disentangled control over image quality without compromising the amount of variation by guiding generation using a smaller, less-trained version of the model itself rather than an unconditional model. This leads to significant improvements in ImageNet generation, setting record FIDs of 1.01 for 64×64 and 1.25 for 512×512, using publicly available networks. Furthermore, the method is also applicable to unconditional diffusion models, drastically improving their quality.

arxiv情報

著者 Tero Karras,Miika Aittala,Tuomas Kynkäänniemi,Jaakko Lehtinen,Timo Aila,Samuli Laine
発行日 2024-06-04 17:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE, stat.ML パーマリンク