要約
典型的な拡散モデルは、特定の形式の条件付け (最も一般的にはテキスト) を受け入れるようにトレーニングされており、再トレーニングなしでは他のモダリティで条件付けすることはできません。
この作業では、用途固有のコンポーネントを再トレーニングする必要なく、任意のガイダンス モダリティによって拡散モデルを制御できるようにするユニバーサル ガイダンス アルゴリズムを提案します。
私たちのアルゴリズムが、セグメンテーション、顔認識、オブジェクト検出、分類子信号などのガイダンス機能を備えた高品質の画像を正常に生成することを示します。
コードは https://github.com/arpitbansal297/Universal-Guided-Diffusion で入手できます。
要約(オリジナル)
Typical diffusion models are trained to accept a particular form of conditioning, most commonly text, and cannot be conditioned on other modalities without retraining. In this work, we propose a universal guidance algorithm that enables diffusion models to be controlled by arbitrary guidance modalities without the need to retrain any use-specific components. We show that our algorithm successfully generates quality images with guidance functions including segmentation, face recognition, object detection, and classifier signals. Code is available at https://github.com/arpitbansal297/Universal-Guided-Diffusion.
arxiv情報
著者 | Arpit Bansal,Hong-Min Chu,Avi Schwarzschild,Soumyadip Sengupta,Micah Goldblum,Jonas Geiping,Tom Goldstein |
発行日 | 2023-02-14 15:30:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google