Diffusion-Based Image-to-Image Translation by Noise Correction via Prompt Interpolation


ノイズ補正項を 2 つのノイズ予測の差として定式化します。
1 つはソース プロンプト エンベディングとターゲット プロンプト エンベディングのプログレッシブ補間を使用してノイズ除去ネットワークから計算され、もう 1 つはソース プロンプト エンベディングを使用したノイズ予測です。
最終的なノイズ予測ネットワークは、標準ノイズ除去項とノイズ補正項の線形結合によって与えられます。前者は保存する必要がある領域を再構成するように設計され、後者はターゲット プロンプトに関連する関心領域を効果的に編集することを目的としています。



We propose a simple but effective training-free approach tailored to diffusion-based image-to-image translation. Our approach revises the original noise prediction network of a pretrained diffusion model by introducing a noise correction term. We formulate the noise correction term as the difference between two noise predictions; one is computed from the denoising network with a progressive interpolation of the source and target prompt embeddings, while the other is the noise prediction with the source prompt embedding. The final noise prediction network is given by a linear combination of the standard denoising term and the noise correction term, where the former is designed to reconstruct must-be-preserved regions while the latter aims to effectively edit regions of interest relevant to the target prompt. Our approach can be easily incorporated into existing image-to-image translation methods based on diffusion models. Extensive experiments verify that the proposed technique achieves outstanding performance with low latency and consistently improves existing frameworks when combined with them.


著者 Junsung Lee,Minsoo Kang,Bohyung Han
発行日 2024-09-12 14:30:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク