An Edit Friendly DDPM Noise Space: Inversion and Manipulations

要約

ノイズ除去拡散確率モデル (DDPM) は、一連のホワイト ガウス ノイズ サンプルを使用して画像を生成します。
GAN と同様に、これらのノイズ マップは、生成された画像に関連付けられた潜在コードと考えることができます。
ただし、このネイティブ ノイズ スペースは便利な構造を持たないため、編集作業での作業が困難になります。
ここでは、簡単な手段で幅広い編集操作を可能にする DDPM 用の代替潜在ノイズ空間を提案し、任意の画像 (実際または合成的に生成された) に対してこれらの編集しやすいノイズ マップを抽出するための反転手法を提示します。
ネイティブ DDPM ノイズ空間とは対照的に、編集しやすいノイズ マップには標準正規分布がなく、タイムステップ間で統計的に独立していません。
ただし、目的の画像を完全に再構成でき、単純な変換が出力画像の意味のある操作 (シフト、カラー編集など) に変換されます。
さらに、テキスト条件付きモデルでは、テキスト プロンプトを変更しながらノイズ マップを修正すると、構造を維持しながらセマンティクスが変更されます。
このプロパティにより、(一般的な非多様な DDIM 反転とは対照的に) 多様な DDPM サンプリング スキームを介して実際のイメージのテキストベースの編集がどのように可能になるかを説明します。
また、既存の拡散ベースの編集方法の中でそれを使用して、品質と多様性を向上させる方法も示します。
ウェブページ: https://inbarhub.github.io/DDPM_inversion

要約(オリジナル)

Denoising diffusion probabilistic models (DDPMs) employ a sequence of white Gaussian noise samples to generate an image. In analogy with GANs, those noise maps could be considered as the latent code associated with the generated image. However, this native noise space does not possess a convenient structure, and is thus challenging to work with in editing tasks. Here, we propose an alternative latent noise space for DDPM that enables a wide range of editing operations via simple means, and present an inversion method for extracting these edit-friendly noise maps for any given image (real or synthetically generated). As opposed to the native DDPM noise space, the edit-friendly noise maps do not have a standard normal distribution and are not statistically independent across timesteps. However, they allow perfect reconstruction of any desired image, and simple transformations on them translate into meaningful manipulations of the output image (e.g. shifting, color edits). Moreover, in text-conditional models, fixing those noise maps while changing the text prompt, modifies semantics while retaining structure. We illustrate how this property enables text-based editing of real images via the diverse DDPM sampling scheme (in contrast to the popular non-diverse DDIM inversion). We also show how it can be used within existing diffusion-based editing methods to improve their quality and diversity. Webpage: https://inbarhub.github.io/DDPM_inversion

arxiv情報

著者 Inbar Huberman-Spiegelglas,Vladimir Kulikov,Tomer Michaeli
発行日 2024-04-09 17:09:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク