Diffusion-Based Image-to-Image Translation by Noise Correction via Prompt Interpolation

要約

私たちは、拡散ベースの画像間の変換に合わせた、シンプルだが効果的なトレーニング不要のアプローチを提案します。
私たちのアプローチは、ノイズ補正項を導入することによって、事前トレーニングされた拡散モデルの元のノイズ予測ネットワークを修正します。
ノイズ補正項を 2 つのノイズ予測の差として定式化します。
1 つはソース プロンプト エンベディングとターゲット プロンプト エンベディングのプログレッシブ補間を使用してノイズ除去ネットワークから計算され、もう 1 つはソース プロンプト エンベディングを使用したノイズ予測です。
最終的なノイズ予測ネットワークは、標準ノイズ除去項とノイズ補正項の線形結合によって与えられます。前者は保存する必要がある領域を再構成するように設計され、後者はターゲット プロンプトに関連する関心領域を効果的に編集することを目的としています。

私たちのアプローチは、拡散モデルに基づいた既存の画像間の変換方法に簡単に組み込むことができます。
広範な実験により、提案された手法が低遅延で優れたパフォーマンスを達成し、既存のフレームワークと組み合わせると一貫して改善されることが検証されています。

要約(オリジナル)

We propose a simple but effective training-free approach tailored to diffusion-based image-to-image translation. Our approach revises the original noise prediction network of a pretrained diffusion model by introducing a noise correction term. We formulate the noise correction term as the difference between two noise predictions; one is computed from the denoising network with a progressive interpolation of the source and target prompt embeddings, while the other is the noise prediction with the source prompt embedding. The final noise prediction network is given by a linear combination of the standard denoising term and the noise correction term, where the former is designed to reconstruct must-be-preserved regions while the latter aims to effectively edit regions of interest relevant to the target prompt. Our approach can be easily incorporated into existing image-to-image translation methods based on diffusion models. Extensive experiments verify that the proposed technique achieves outstanding performance with low latency and consistently improves existing frameworks when combined with them.

arxiv情報

著者 Junsung Lee,Minsoo Kang,Bohyung Han
発行日 2024-09-12 14:30:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク