Null-text Inversion for Editing Real Images using Guided Diffusion Models

要約

最近のテキストガイド拡散モデルは、強力な画像生成機能を提供します。
現在、直観的で多彩な編集を提供する手段として、テキストのみを使用してこれらの画像を変更できるようにするために多大な努力が払われています。
これらの最先端のツールを使用して実際の画像を編集するには、まず、意味のあるテキスト プロンプトで画像を事前トレーニング済みモデルのドメインに反転する必要があります。
この論文では、正確な反転手法を導入し、テキストベースの画像の直感的な変更を容易にします。
提案された反転は、2 つの新しい主要コンポーネントで構成されます。(i) 拡散モデルのピボット反転。
現在の方法は、ランダムなノイズ サンプルを単一の入力画像にマッピングすることを目的としていますが、タイムスタンプごとに単一の重要なノイズ ベクトルを使用し、それを中心に最適化します。
直接反転はそれ自体では不十分ですが、最適化の優れたアンカーを提供することを示しています。
(ii) NULL テキストの最適化。入力テキストの埋め込みではなく、分類子を使用しないガイダンスに使用される無条件のテキスト埋め込みのみを変更します。
これにより、モデルの重みと条件付き埋め込みの両方をそのまま維持できるため、モデルの重みの面倒な調整を回避しながら、プロンプトベースの編集を適用できます。
公開されている Stable Diffusion モデルに基づく Null-text 反転は、さまざまな画像と迅速な編集で広く評価されており、実際の画像の忠実度の高い編集を示しています。

要約(オリジナル)

Recent text-guided diffusion models provide powerful image generation capabilities. Currently, a massive effort is given to enable the modification of these images using text only as means to offer intuitive and versatile editing. To edit a real image using these state-of-the-art tools, one must first invert the image with a meaningful text prompt into the pretrained model’s domain. In this paper, we introduce an accurate inversion technique and thus facilitate an intuitive text-based modification of the image. Our proposed inversion consists of two novel key components: (i) Pivotal inversion for diffusion models. While current methods aim at mapping random noise samples to a single input image, we use a single pivotal noise vector for each timestamp and optimize around it. We demonstrate that a direct inversion is inadequate on its own, but does provide a good anchor for our optimization. (ii) NULL-text optimization, where we only modify the unconditional textual embedding that is used for classifier-free guidance, rather than the input text embedding. This allows for keeping both the model weights and the conditional embedding intact and hence enables applying prompt-based editing while avoiding the cumbersome tuning of the model’s weights. Our Null-text inversion, based on the publicly available Stable Diffusion model, is extensively evaluated on a variety of images and prompt editing, showing high-fidelity editing of real images.

arxiv情報

著者 Ron Mokady,Amir Hertz,Kfir Aberman,Yael Pritch,Daniel Cohen-Or
発行日 2022-11-17 18:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク