Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing

要約

テキストから画像への拡散モデルの顕著な出現により、画像編集方法はより多様になり、進化し続けています。
この分野における最近の有望なアプローチは、デルタ ノイズ除去スコア (DDS) です。これは、テキストから画像への拡散モデルの豊富な生成事前情報を活用する、スコア蒸留サンプリング (SDS) フレームワークに基づく画像編集技術です。
ただし、スコア関数間の違いだけに依存するだけでは、画像編集の重要な側面である元の画像から特定の構造要素を保存するには不十分です。
DDS と、不対画像間変換 (CUT) の対照学習との類似点と重要性の違いに触発されて、ここでは、潜在拡散モデル用の、対照的ノイズ除去スコア (CDS) と呼ばれる、恥ずかしいほど単純だが非常に強力な DDS の修正を紹介します。
(LDM)。
具体的には、コンテンツの制御可能性を維持しながら入力と出力の間の構造的対応を強化するために、DDS フレームワーク内の CUT ロスを使用して構造の一貫性を調整する直接的なアプローチを導入します。
この損失を計算するために、補助ネットワークを使用する代わりに、LDM の中間機能、特に豊富な空間情報を持つセルフ アテンション層の機能を利用します。
私たちのアプローチは、ゼロショットの画像間の変換と神経放射フィールド (NeRF) 編集を可能にし、構造の詳細の維持とコンテンツの変換の間のバランスのとれた相互作用を実現します。
定性的な結果と比較は、私たちが提案した方法の有効性を示しています。
コードを含むプロジェクト ページは https://hyelinnam.github.io/CDS/ で入手できます。

要約(オリジナル)

With the remarkable advent of text-to-image diffusion models, image editing methods have become more diverse and continue to evolve. A promising recent approach in this realm is Delta Denoising Score (DDS) – an image editing technique based on Score Distillation Sampling (SDS) framework that leverages the rich generative prior of text-to-image diffusion models. However, relying solely on the difference between scoring functions is insufficient for preserving specific structural elements from the original image, a crucial aspect of image editing. Inspired by the similarity and importance differences between DDS and the contrastive learning for unpaired image-to-image translation (CUT), here we present an embarrassingly simple yet very powerful modification of DDS, called Contrastive Denoising Score (CDS), for latent diffusion models (LDM). Specifically, to enforce structural correspondence between the input and output while maintaining the controllability of contents, we introduce a straightforward approach to regulate structural consistency using CUT loss within the DDS framework. To calculate this loss, instead of employing auxiliary networks, we utilize the intermediate features of LDM, in particular, those from the self-attention layers, which possesses rich spatial information. Our approach enables zero-shot image-to-image translation and neural radiance field (NeRF) editing, achieving a well-balanced interplay between maintaining the structural details and transforming content. Qualitative results and comparisons demonstrates the effectiveness of our proposed method. Project page with code is available at https://hyelinnam.github.io/CDS/.

arxiv情報

著者 Hyelin Nam,Gihyun Kwon,Geon Yeong Park,Jong Chul Ye
発行日 2023-11-30 15:06:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク