More Control for Free! Image Synthesis with Semantic Diffusion Guidance

要約

制御可能な画像合成モデルは、テキストの指示や参照画像からのガイダンスに基づき、多様な画像を作成することができる。最近、ノイズ除去拡散確率モデルは、先行する方法よりも現実的な画像を生成することが示され、無条件およびクラス条件設定において成功裏に実証されている。我々はこのモデルクラスのきめ細かい連続制御を研究し、言語か画像、あるいはその両方のガイダンスを可能にする、意味拡散ガイダンスのための新しい統一フレームワークを紹介する。ガイダンスは、拡散モデルを再トレーニングすることなく、画像-テキストまたは画像マッチングのスコアの勾配を用いて、事前にトレーニングされた無条件拡散モデルに注入される。我々はCLIPに基づく言語ガイダンスと、コンテンツとスタイルに基づく画像ガイダンスを統一的なフレームワークで探求している。我々のテキストガイドアプローチは、テキスト注釈のないデータセットに適用することができる。FFHQとLSUNデータセットで実験を行い、きめの細かいテキストガイド付き画像合成、スタイルやコンテンツの参照画像に関連する画像の合成、テキストと画像の両方のガイドがある例についての結果を示す。

要約(オリジナル)

Controllable image synthesis models allow creation of diverse images based on text instructions or guidance from a reference image. Recently, denoising diffusion probabilistic models have been shown to generate more realistic imagery than prior methods, and have been successfully demonstrated in unconditional and class-conditional settings. We investigate fine-grained, continuous control of this model class, and introduce a novel unified framework for semantic diffusion guidance, which allows either language or image guidance, or both. Guidance is injected into a pretrained unconditional diffusion model using the gradient of image-text or image matching scores, without re-training the diffusion model. We explore CLIP-based language guidance as well as both content and style-based image guidance in a unified framework. Our text-guided synthesis approach can be applied to datasets without associated text annotations. We conduct experiments on FFHQ and LSUN datasets, and show results on fine-grained text-guided image synthesis, synthesis of images related to a style or content reference image, and examples with both textual and image guidance.

arxiv情報

著者 Xihui Liu,Dong Huk Park,Samaneh Azadi,Gong Zhang,Arman Chopikyan,Yuxiao Hu,Humphrey Shi,Anna Rohrbach,Trevor Darrell
発行日 2022-12-05 15:37:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR パーマリンク