要約
テキストガイド付き拡散モデルは非常に高度な画像編集を備えており、テキストプロンプトによって高品質で多様な変更を行うことができます。
ただし、効果的な編集にはソース イメージを潜在空間に反転する必要があり、このプロセスは DDIM 反転に固有の予測誤差によって妨げられることがよくあります。
これらのエラーは拡散プロセス中に蓄積され、特に条件付き入力の場合、コンテンツの保存と編集の忠実度が低下します。
我々は、DDIM 反転におけるエラー蓄積の主な原因を調査することでこれらの課題に対処し、従来のノイズ スケジュールにおける特異点の問題を主要な問題として特定します。
これを解決するために、ロジスティック スケジュールを導入します。これは、特異点を排除し、反転の安定性を向上させ、画像編集により優れたノイズ スペースを提供するように設計された新しいノイズ スケジュールです。
このスケジュールによりノイズ予測エラーが軽減され、ソース画像の元の内容を維持したより忠実な編集が可能になります。
私たちのアプローチは追加の再トレーニングを必要とせず、さまざまな既存の編集方法と互換性があります。
8 つの編集タスクにわたる実験では、従来のノイズ スケジュールと比較して、コンテンツの保存と編集の忠実度においてロジスティック スケジュールの優れたパフォーマンスが実証され、その適応性と有効性が強調されています。
要約(オリジナル)
Text-guided diffusion models have significantly advanced image editing, enabling high-quality and diverse modifications driven by text prompts. However, effective editing requires inverting the source image into a latent space, a process often hindered by prediction errors inherent in DDIM inversion. These errors accumulate during the diffusion process, resulting in inferior content preservation and edit fidelity, especially with conditional inputs. We address these challenges by investigating the primary contributors to error accumulation in DDIM inversion and identify the singularity problem in traditional noise schedules as a key issue. To resolve this, we introduce the Logistic Schedule, a novel noise schedule designed to eliminate singularities, improve inversion stability, and provide a better noise space for image editing. This schedule reduces noise prediction errors, enabling more faithful editing that preserves the original content of the source image. Our approach requires no additional retraining and is compatible with various existing editing methods. Experiments across eight editing tasks demonstrate the Logistic Schedule’s superior performance in content preservation and edit fidelity compared to traditional noise schedules, highlighting its adaptability and effectiveness.
arxiv情報
著者 | Haonan Lin,Mengmeng Wang,Jiahao Wang,Wenbin An,Yan Chen,Yong Liu,Feng Tian,Guang Dai,Jingdong Wang,Qianying Wang |
発行日 | 2024-10-24 14:07:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google