Null-text Guidance in Diffusion Models is Secretly a Cartoon-style Creator

要約

タイトル:DiffusionモデルにおけるNull-text Guidanceは、密かにカートゥーンスタイルのクリエイターである

要約:

– Classifier-free guidanceは、広く採用されているDiffusionモデルの効果的なサンプリング技術である。
– Null-text Guidanceは、テキストガイダンスの方向にモデルを外挿し、Null-text Guidanceから遠ざけることを目的としている。
– この論文では、DiffusionモデルにおけるNull-text Guidanceが密かにカートゥーンスタイルのクリエイターであることを示す。
– 具体的には、Null-text Guidanceを摂動させることで、生成された画像を効率的にカートゥーンに変換できることを提案する。
– 2つの摂動方法、Rollback disturbance(Back-D)とImage disturbance(Image-D)を提案し、Null-text noisy imageとtext noisy imageの間にノイズを発生させることでカートゥーン風にする方法を示す。
– Back-Dは、Null-text noisy imageのノイズレベルを$x_t$から$x_{t+\Delta t}$に置換することでカートゥーン化を実現する。
– Image-Dは、$x_t$をクリーンな入力画像と定義することで、高品質で多様なカートゥーンを生成する。
– Null-textのノイズを妨害する原理について詳しく調査し、妨害の効果はNull-text noisy imageと元の画像の相関関係に依存することを明らかにする。
– 提案されたテクニックは、トレーニングフリーで、クラシファイアフリーガイドDiffusionモデルのプラグアンドプレイコンポーネントとして簡単に統合できる。
– プロジェクトページは、\url{https://nulltextforcartoon.github.io/}で利用可能。

要約(オリジナル)

Classifier-free guidance is an effective sampling technique in diffusion models that has been widely adopted. The main idea is to extrapolate the model in the direction of text guidance and away from null-text guidance. In this paper, we demonstrate that null-text guidance in diffusion models is secretly a cartoon-style creator, i.e., the generated images can be efficiently transformed into cartoons by simply perturbing the null-text guidance. Specifically, we proposed two disturbance methods, i.e., Rollback disturbance (Back-D) and Image disturbance (Image-D), to construct misalignment between the noisy images used for predicting null-text guidance and text guidance (subsequently referred to as \textbf{null-text noisy image} and \textbf{text noisy image} respectively) in the sampling process. Back-D achieves cartoonization by altering the noise level of null-text noisy image via replacing $x_t$ with $x_{t+\Delta t}$. Image-D, alternatively, produces high-fidelity, diverse cartoons by defining $x_t$ as a clean input image, which further improves the incorporation of finer image details. Through comprehensive experiments, we delved into the principle of noise disturbing for null-text and uncovered that the efficacy of disturbance depends on the correlation between the null-text noisy image and the source image. Moreover, our proposed techniques, which can generate cartoon images and cartoonize specific ones, are training-free and easily integrated as a plug-and-play component in any classifier-free guided diffusion model. Project page is available at \url{https://nulltextforcartoon.github.io/}.

arxiv情報

著者 Jing Zhao,Heliang Zheng,Chaoyue Wang,Long Lan,Wanrong Huang,Wenjing Yang
発行日 2023-05-11 10:36:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク