要約
拡散モデルは、幅広いテキストベースの画像編集フレームワークへの道を開いた。しかし、これらは通常、拡散の後方プロセスの多段階の性質に基づいており、それらを蒸留された高速サンプリング手法に適応させることは驚くほど困難であることが判明している。ここでは、テキストベースの編集フレームワークの中でも人気の高い、「編集に適した」DDPMノイズ反転アプローチに注目する。高速サンプリング法への適用を分析し、その失敗を2つのクラスに分類する。アーチファクトは、反転されたノイズと期待されるノイズスケジュールとの間のノイズ統計量の不一致に起因しており、この不一致を補正するシフトされたノイズスケジュールを提案する。編集強度を向上させるために、新たなアーチファクトを導入することなく効率的に編集の大きさを増加させる擬似ガイダンスアプローチを提案する。全体として、我々の手法は、一般的なテキストベースの編集アプローチの背後にあるメカニズムに対する新しい洞察を提供しながら、わずか3つの拡散ステップでテキストベースの画像編集を可能にする。
要約(オリジナル)
Diffusion models have opened the path to a wide range of text-based image editing frameworks. However, these typically build on the multi-step nature of the diffusion backwards process, and adapting them to distilled, fast-sampling methods has proven surprisingly challenging. Here, we focus on a popular line of text-based editing frameworks – the “edit-friendly” DDPM-noise inversion approach. We analyze its application to fast sampling methods and categorize its failures into two classes: the appearance of visual artifacts, and insufficient editing strength. We trace the artifacts to mismatched noise statistics between inverted noises and the expected noise schedule, and suggest a shifted noise schedule which corrects for this offset. To increase editing strength, we propose a pseudo-guidance approach that efficiently increases the magnitude of edits without introducing new artifacts. All in all, our method enables text-based image editing with as few as three diffusion steps, while providing novel insights into the mechanisms behind popular text-based editing approaches.
arxiv情報
著者 | Gilad Deutch,Rinon Gal,Daniel Garibi,Or Patashnik,Daniel Cohen-Or |
発行日 | 2024-08-01 17:27:28+00:00 |
arxivサイト | arxiv_id(pdf) |