Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing

要約

拡散モデルは、テキストガイドによる画像生成の分野で、そして最近ではテキストガイドによる画像編集の分野で目覚ましい成功を収めています。
実際の画像を編集するために一般的に採用される戦略には、拡散プロセスを反転して元の画像のノイズの多い表現を取得し、その後、ノイズを除去して目的の編集を実現することが含まれます。
ただし、拡散反転の現在の方法では、指定されたテキスト プロンプトに忠実であり、ソース画像によく似た編集を生成するのが難しいことがよくあります。
これらの制限を克服するために、編集性を高めるための DDIM サンプリング方程式における $\eta$ の役割の理論的分析に基づいた、実際の画像編集のための新しく適応可能な拡散反転手法を導入します。
時間と地域に依存する $\eta$ 関数を備えた汎用拡散反転手法を設計することで、編集範囲を柔軟に制御できるようになります。
最近のさまざまな方法との比較を含む、一連の包括的な定量的および定性的評価を通じて、当社のアプローチの優位性を実証します。
私たちの手法は、この分野で新たなベンチマークを設定するだけでなく、既存の戦略を大幅に上回ります。
私たちのコードは https://github.com/furiosa-ai/eta-inversion で入手できます。

要約(オリジナル)

Diffusion models have achieved remarkable success in the domain of text-guided image generation and, more recently, in text-guided image editing. A commonly adopted strategy for editing real images involves inverting the diffusion process to obtain a noisy representation of the original image, which is then denoised to achieve the desired edits. However, current methods for diffusion inversion often struggle to produce edits that are both faithful to the specified text prompt and closely resemble the source image. To overcome these limitations, we introduce a novel and adaptable diffusion inversion technique for real image editing, which is grounded in a theoretical analysis of the role of $\eta$ in the DDIM sampling equation for enhanced editability. By designing a universal diffusion inversion method with a time- and region-dependent $\eta$ function, we enable flexible control over the editing extent. Through a comprehensive series of quantitative and qualitative assessments, involving a comparison with a broad array of recent methods, we demonstrate the superiority of our approach. Our method not only sets a new benchmark in the field but also significantly outperforms existing strategies. Our code is available at https://github.com/furiosa-ai/eta-inversion

arxiv情報

著者 Wonjun Kang,Kevin Galim,Hyung Il Koo
発行日 2024-03-14 15:07:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク