要約
拡散プロセス (反転として知られる) に入力されたときに入力画像を生成する初期ノイズ ベクトルを見つけることは、実画像編集のアプリケーションを使用した拡散モデル (DDM) のノイズ除去における重要な問題です。
反転を伴う実画像編集の最先端のアプローチでは、ノイズ除去拡散陰解モデル (DDIM) を使用して、元の条件でノイズ除去がたどるパスに沿って画像を中間状態に決定論的にノイズします。
ただし、実際の画像の DDIM 反転は、局所的な線形化の仮定に依存しているため不安定であり、その結果、エラーが伝播し、不適切な画像再構成やコンテンツの損失につながります。
これらの問題を軽減するために、結合変換 (EDICT) による正確な拡散反転を提案します。これは、アフィン結合層からインスピレーションを得た反転方法です。
EDICT は、交互に互いに反転するために使用される 2 つの結合ノイズ ベクトルを維持することにより、実際の画像とモデル生成画像の数学的に正確な反転を可能にします。
最先端の潜在拡散モデルである Stable Diffusion を使用して、EDICT が忠実度の高い実際の画像を正常に再構築することを示します。
MS-COCO のような複雑な画像データセットでは、EDICT 再構成は DDIM を大幅に上回り、再構成の平均二乗誤差が 2 倍改善されます。
実際の画像から反転したノイズ ベクトルを使用する EDICT は、元の画像構造への忠実性を維持しながら、ローカルおよびグローバルのセマンティック編集から画像の様式化まで、幅広い画像編集を可能にします。
EDICT は、モデルのトレーニング/微調整、迅速な調整、または追加のデータを必要とせず、事前トレーニング済みの DDM と組み合わせることができます。
コードは近日中に公開されます。
要約(オリジナル)
Finding an initial noise vector that produces an input image when fed into the diffusion process (known as inversion) is an important problem in denoising diffusion models (DDMs), with applications for real image editing. The state-of-the-art approach for real image editing with inversion uses denoising diffusion implicit models (DDIMs) to deterministically noise the image to the intermediate state along the path that the denoising would follow given the original conditioning. However, DDIM inversion for real images is unstable as it relies on local linearization assumptions, which result in the propagation of errors, leading to incorrect image reconstruction and loss of content. To alleviate these problems, we propose Exact Diffusion Inversion via Coupled Transformations (EDICT), an inversion method that draws inspiration from affine coupling layers. EDICT enables mathematically exact inversion of real and model-generated images by maintaining two coupled noise vectors which are used to invert each other in an alternating fashion. Using Stable Diffusion, a state-of-the-art latent diffusion model, we demonstrate that EDICT successfully reconstructs real images with high fidelity. On complex image datasets like MS-COCO, EDICT reconstruction significantly outperforms DDIM, improving the mean square error of reconstruction by a factor of two. Using noise vectors inverted from real images, EDICT enables a wide range of image edits–from local and global semantic edits to image stylization–while maintaining fidelity to the original image structure. EDICT requires no model training/finetuning, prompt tuning, or extra data and can be combined with any pretrained DDM. Code will be made available shortly.
arxiv情報
著者 | Bram Wallace,Akash Gokul,Nikhil Naik |
発行日 | 2022-11-22 18:02:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google