要約
画像編集の分野では、制御性、背景保存、効率性という3つの核となる課題が残っている。反転に基づく手法は、初期画像の特徴を保持するために時間のかかる最適化に依存しており、その結果、大規模なネットワーク推論が必要となるため効率が低くなる。逆に、反転を用いない方法は、効率性を達成するために初期特徴を維持するという問題を回避するため、背景の類似性に対する理論的な裏付けを欠いている。結果として、これらの方法はいずれも高い効率と背景の一貫性の両方を達成することはできない。この課題と前述の欠点に取り組むために、拡散サンプリングプロセスを制御するための事後スキームを組み込んだ手法であるPostEditを紹介する。具体的には、与えられたターゲットプロンプトによって生成された推定画像を最適化するために、初期特徴量とランジュヴァンダイナミクスの両方に関連する対応する計測項を導入する。広範な実験結果から、提案するPostEditは、未編集領域を正確に保存しつつ、最先端の編集性能を達成することが示される。さらに、本手法は反転も学習も不要であり、高品質な結果を生成するために必要な時間は約1.5秒、GPUメモリは18GBである。
要約(オリジナル)
In the field of image editing, three core challenges persist: controllability, background preservation, and efficiency. Inversion-based methods rely on time-consuming optimization to preserve the features of the initial images, which results in low efficiency due to the requirement for extensive network inference. Conversely, inversion-free methods lack theoretical support for background similarity, as they circumvent the issue of maintaining initial features to achieve efficiency. As a consequence, none of these methods can achieve both high efficiency and background consistency. To tackle the challenges and the aforementioned disadvantages, we introduce PostEdit, a method that incorporates a posterior scheme to govern the diffusion sampling process. Specifically, a corresponding measurement term related to both the initial features and Langevin dynamics is introduced to optimize the estimated image generated by the given target prompt. Extensive experimental results indicate that the proposed PostEdit achieves state-of-the-art editing performance while accurately preserving unedited regions. Furthermore, the method is both inversion- and training-free, necessitating approximately 1.5 seconds and 18 GB of GPU memory to generate high-quality results.
arxiv情報
著者 | Feng Tian,Yixuan Li,Yichao Yan,Shanyan Guan,Yanhao Ge,Xiaokang Yang |
発行日 | 2025-02-03 12:33:05+00:00 |
arxivサイト | arxiv_id(pdf) |