要約
拡散モデルを使用したテキストガイドによる画像の生成と編集は、目覚ましい進歩を遂げました。
中でもチューニングフリー方式は、大規模なモデル調整を行わずに編集を行えるため、簡単かつ効率的であるとして注目を集めています。
ただし、既存のチューニング不要のアプローチでは、忠実性と編集精度のバランスをとるのに苦労することがよくあります。
DDIM 反転における再構成エラーの一部は、U-Net のクロスアテンション メカニズムに起因しており、これにより反転および再構成のプロセス中に位置ずれが生じます。
これに対処するために、我々は構造的な観点から再構成を分析し、従来のクロスアテンションを均一なアテンションマップに置き換えて、画像再構成の忠実度を大幅に向上させる新しいアプローチを提案します。
私たちの方法は、ノイズ予測中に変化するテキスト条件によって引き起こされる歪みを効果的に最小限に抑えます。
この改善を補完するために、再構築アプローチとシームレスに統合する適応マスクガイド付き編集技術を導入し、編集タスクの一貫性と正確性を確保します。
実験結果は、私たちのアプローチが高忠実度の画像再構成の達成に優れているだけでなく、実際の画像の合成および編集シナリオでも堅牢に機能することを示しています。
この研究は、拡散ベースの画像処理方法の忠実性と多用途性を高める均一なアテンション マップの可能性を強調しています。
コードは https://github.com/Mowenyii/Uniform-Attendant-Maps で入手できます。
要約(オリジナル)
Text-guided image generation and editing using diffusion models have achieved remarkable advancements. Among these, tuning-free methods have gained attention for their ability to perform edits without extensive model adjustments, offering simplicity and efficiency. However, existing tuning-free approaches often struggle with balancing fidelity and editing precision. Reconstruction errors in DDIM Inversion are partly attributed to the cross-attention mechanism in U-Net, which introduces misalignments during the inversion and reconstruction process. To address this, we analyze reconstruction from a structural perspective and propose a novel approach that replaces traditional cross-attention with uniform attention maps, significantly enhancing image reconstruction fidelity. Our method effectively minimizes distortions caused by varying text conditions during noise prediction. To complement this improvement, we introduce an adaptive mask-guided editing technique that integrates seamlessly with our reconstruction approach, ensuring consistency and accuracy in editing tasks. Experimental results demonstrate that our approach not only excels in achieving high-fidelity image reconstruction but also performs robustly in real image composition and editing scenarios. This study underscores the potential of uniform attention maps to enhance the fidelity and versatility of diffusion-based image processing methods. Code is available at https://github.com/Mowenyii/Uniform-Attention-Maps.
arxiv情報
著者 | Wenyi Mo,Tianyu Zhang,Yalong Bai,Bing Su,Ji-Rong Wen |
発行日 | 2024-11-29 12:11:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google