Null-text Guidance in Diffusion Models is Secretly a Cartoon-style Creator


主なアイデアは、ヌルテキスト ガイダンスから離れて、テキスト ガイダンスの方向にモデルを外挿することです。
この論文では、拡散モデルにおけるヌルテキスト ガイダンスが密かに漫画スタイルの作成者であること、つまり、ヌル テキスト ガイダンスを単に摂動させるだけで、生成された画像を効率的に漫画に変換できることを実証します。
具体的には、ヌルテキストガイダンスの予測に使用されるノイズを含む画像とテキストガイダンス(以降、 \textbf と呼ばれます)の間のずれを構築するために、ロールバック障害(Back-D)と画像障害(Image-D)の 2 つの障害方法を提案しました。
サンプリング プロセスでは、それぞれ {null-text noisy image} と \textbf{text noisy image}) が使用されます。
Back-D は、$x_t$ を $x_{t+\Delta t}$ に置き換えることにより、ヌルテキストのノイズのある画像のノイズ レベルを変更することで漫画化を実現します。
Image-D は、$x_t$ をクリーンな入力画像として定義することで、忠実度の高い多様な漫画を生成します。これにより、画像の詳細の組み込みがさらに改善されます。
プロジェクト ページは \url{} から入手できます。


Classifier-free guidance is an effective sampling technique in diffusion models that has been widely adopted. The main idea is to extrapolate the model in the direction of text guidance and away from null-text guidance. In this paper, we demonstrate that null-text guidance in diffusion models is secretly a cartoon-style creator, i.e., the generated images can be efficiently transformed into cartoons by simply perturbing the null-text guidance. Specifically, we proposed two disturbance methods, i.e., Rollback disturbance (Back-D) and Image disturbance (Image-D), to construct misalignment between the noisy images used for predicting null-text guidance and text guidance (subsequently referred to as \textbf{null-text noisy image} and \textbf{text noisy image} respectively) in the sampling process. Back-D achieves cartoonization by altering the noise level of null-text noisy image via replacing $x_t$ with $x_{t+\Delta t}$. Image-D, alternatively, produces high-fidelity, diverse cartoons by defining $x_t$ as a clean input image, which further improves the incorporation of finer image details. Through comprehensive experiments, we delved into the principle of noise disturbing for null-text and uncovered that the efficacy of disturbance depends on the correlation between the null-text noisy image and the source image. Moreover, our proposed techniques, which can generate cartoon images and cartoonize specific ones, are training-free and easily integrated as a plug-and-play component in any classifier-free guided diffusion model. Project page is available at \url{}.


著者 Jing Zhao,Heliang Zheng,Chaoyue Wang,Long Lan,Wanrong Huang,Wenjing Yang
発行日 2023-08-04 03:07:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV パーマリンク