Tuning-Free Inversion-Enhanced Control for Consistent Image Editing

要約

実際の画像の一貫した編集は、入力画像内の主要なオブジェクトに対して、そのアイデンティティや属性を変更せずに非剛体編集 (姿勢の変更など) を実行する必要があるため、困難な作業です。
一貫した属性を保証するために、一部の既存の方法ではモデル全体やテキストの埋め込みを微調整して構造の一貫性を保っていますが、時間がかかり、非剛体編集は実行できません。
他の作品はチューニング不要ですが、ノイズ除去拡散暗黙的モデル (DDIM) 再構築の品質によってパフォーマンスが低下し、現実のシナリオでは失敗することがよくあります。
この論文では、チューニングフリー反転拡張制御 (TIC) と呼ばれる新しいアプローチを紹介します。このアプローチは、反転プロセスの特徴とサンプリング プロセスの特徴を直接相関させ、DDIM 再構築における不一致を軽減します。
具体的には、私たちの手法は、セルフアテンション層のキー特徴と値特徴から反転特徴を効果的に取得し、これらの反転特徴によってサンプリングプロセスを強化することで、正確な再構成とコンテンツの一貫性のある編集を実現します。
私たちの方法の適用可能性を一般的な編集シナリオに拡張するために、反転と単純な DDIM 編集プロセスの両方からのコンテンツを結合する、マスクに基づくアテンション連結戦略も提案します。
実験の結果、提案された方法は再構成と一貫した編集において以前の研究よりも優れており、さまざまな設定で印象的な結果が得られることが示されています。

要約(オリジナル)

Consistent editing of real images is a challenging task, as it requires performing non-rigid edits (e.g., changing postures) to the main objects in the input image without changing their identity or attributes. To guarantee consistent attributes, some existing methods fine-tune the entire model or the textual embedding for structural consistency, but they are time-consuming and fail to perform non-rigid edits. Other works are tuning-free, but their performances are weakened by the quality of Denoising Diffusion Implicit Model (DDIM) reconstruction, which often fails in real-world scenarios. In this paper, we present a novel approach called Tuning-free Inversion-enhanced Control (TIC), which directly correlates features from the inversion process with those from the sampling process to mitigate the inconsistency in DDIM reconstruction. Specifically, our method effectively obtains inversion features from the key and value features in the self-attention layers, and enhances the sampling process by these inversion features, thus achieving accurate reconstruction and content-consistent editing. To extend the applicability of our method to general editing scenarios, we also propose a mask-guided attention concatenation strategy that combines contents from both the inversion and the naive DDIM editing processes. Experiments show that the proposed method outperforms previous works in reconstruction and consistent editing, and produces impressive results in various settings.

arxiv情報

著者 Xiaoyue Duan,Shuhao Cui,Guoliang Kang,Baochang Zhang,Zhengcong Fei,Mingyuan Fan,Junshi Huang
発行日 2023-12-22 11:13:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク