Training-free Content Injection using h-space in Diffusion Models

要約

拡散モデル(DM)は、様々な領域において高品質な画像を合成する。しかし、その生成過程の中間変数が厳密に研究されていないため、生成過程の制御はまだ曖昧である。最近、U-Netのボトルネックとなる特徴、すなわち$h$空間が、結果として得られる画像のセマンティクスを伝えることがわかった。これにより、DM内でStyleCLIPのような潜在的編集が可能となる。本論文では、属性編集にとどまらない$h$-空間の更なる利用法を模索し、生成過程における特徴を組み合わせることで、ある画像の内容を別の画像に注入する手法を紹介する。簡単に説明すると、もう一方の画像の元の生成過程が与えられたとき、1)適切な正規化を行いながら、コンテンツのボトルネックとなる特徴を徐々に混ぜ合わせ、2)注入されたコンテンツと一致するようにスキップ接続を較正する。カスタム拡散アプローチとは異なり、我々の手法は時間のかかる最適化や微調整を必要としない。その代わりに、本手法はフィードフォワード生成プロセス内で中間的な特徴を操作する。さらに、本手法は外部ネットワークからの監視を必要としない。コードはhttps://curryjung.github.io/InjectFusion/

要約(オリジナル)

Diffusion models (DMs) synthesize high-quality images in various domains. However, controlling their generative process is still hazy because the intermediate variables in the process are not rigorously studied. Recently, the bottleneck feature of the U-Net, namely $h$-space, is found to convey the semantics of the resulting image. It enables StyleCLIP-like latent editing within DMs. In this paper, we explore further usage of $h$-space beyond attribute editing, and introduce a method to inject the content of one image into another image by combining their features in the generative processes. Briefly, given the original generative process of the other image, 1) we gradually blend the bottleneck feature of the content with proper normalization, and 2) we calibrate the skip connections to match the injected content. Unlike custom-diffusion approaches, our method does not require time-consuming optimization or fine-tuning. Instead, our method manipulates intermediate features within a feed-forward generative process. Furthermore, our method does not require supervision from external networks. The code is available at https://curryjung.github.io/InjectFusion/

arxiv情報

著者 Jaeseok Jeong,Mingi Kwon,Youngjung Uh
発行日 2024-01-04 09:23:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク