要約
DDIM 反転により、拡散ベースの方法における実画像編集の顕著な可能性が明らかになりました。
ただし、拡張編集に使用される分類子なしガイダンス (CFG) スケールが大きくなると、DDIM 再構成の精度が低下します。
ヌルテキスト反転 (NTI) は、ヌル埋め込みを最適化して、再構成と反転の軌跡をより大きな CFG スケールに合わせて調整し、クロスアテンション制御による実イメージ編集を可能にします。
さらに、ネガティブ プロンプト反転 (NPI) は、トレーニング不要の閉じた形式の NTI ソリューションを提供します。
ただし、アーティファクトが発生する可能性があり、DDIM 再構成の品質によって依然として制約されます。
これらの制限を克服するために、NTI と NPI の概念を拡張する Proximal Negative-Prompt Inversion (ProxNPI) を提案します。
正則化項と再構成ガイダンスを使用して NPI を強化します。これにより、トレーニング不要の性質を利用しながらアーティファクトが削減されます。
私たちの方法は効率的で簡単なアプローチを提供し、最小限の計算オーバーヘッドで実際の画像編集タスクに効果的に対処します。
要約(オリジナル)
DDIM inversion has revealed the remarkable potential of real image editing within diffusion-based methods. However, the accuracy of DDIM reconstruction degrades as larger classifier-free guidance (CFG) scales being used for enhanced editing. Null-text inversion (NTI) optimizes null embeddings to align the reconstruction and inversion trajectories with larger CFG scales, enabling real image editing with cross-attention control. Negative-prompt inversion (NPI) further offers a training-free closed-form solution of NTI. However, it may introduce artifacts and is still constrained by DDIM reconstruction quality. To overcome these limitations, we propose Proximal Negative-Prompt Inversion (ProxNPI), extending the concepts of NTI and NPI. We enhance NPI with a regularization term and reconstruction guidance, which reduces artifacts while capitalizing on its training-free nature. Our method provides an efficient and straightforward approach, effectively addressing real image editing tasks with minimal computational overhead.
arxiv情報
著者 | Ligong Han,Song Wen,Qi Chen,Zhixing Zhang,Kunpeng Song,Mengwei Ren,Ruijiang Gao,Yuxiao Chen,Di Liu,Qilong Zhangli,Anastasis Stathopoulos,Jindong Jiang,Zhaoyang Xia,Akash Srivastava,Dimitris Metaxas |
発行日 | 2023-06-08 17:57:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google