SimInversion: A Simple Framework for Inversion-Based Text-to-Image Editing

要約

拡散モデルは、テキスト ガイダンスによる優れた画像生成パフォーマンスを示します。
拡散の学習プロセスにヒントを得て、DDIM 反転により既存の画像をテキストに従って編集できます。
ただし、標準的な DDIM 逆変換は分類子を使用しないガイダンス用に最適化されていないため、累積されたエラーにより望ましくないパフォーマンスが発生します。
編集のための DDIM 逆変換のフレームワークを改善するために多くのアルゴリズムが開発されていますが、この研究では、DDIM 逆変換における近似誤差を調査し、元のフレームワークを維持しながら誤差を削減するためにソース ブランチとターゲット ブランチのガイダンス スケールを解きほぐすことを提案します。
さらに、理論的にはデフォルト設定よりも優れたガイダンス スケール (つまり 0.5) を導き出すことができます。
PIE-Bench での実験では、私たちの提案により、効率を犠牲にすることなく DDIM 逆変換のパフォーマンスを劇的に向上できることがわかりました。

要約(オリジナル)

Diffusion models demonstrate impressive image generation performance with text guidance. Inspired by the learning process of diffusion, existing images can be edited according to text by DDIM inversion. However, the vanilla DDIM inversion is not optimized for classifier-free guidance and the accumulated error will result in the undesired performance. While many algorithms are developed to improve the framework of DDIM inversion for editing, in this work, we investigate the approximation error in DDIM inversion and propose to disentangle the guidance scale for the source and target branches to reduce the error while keeping the original framework. Moreover, a better guidance scale (i.e., 0.5) than default settings can be derived theoretically. Experiments on PIE-Bench show that our proposal can improve the performance of DDIM inversion dramatically without sacrificing efficiency.

arxiv情報

著者 Qi Qian,Haiyang Xu,Ming Yan,Juhua Hu
発行日 2024-09-16 17:10:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク