Direct Inversion: Boosting Diffusion-based Editing with 3 Lines of Code

要約

テキストガイドによる拡散モデルは画像の生成と編集に革命をもたらし、並外れたリアリズムと多様性を提供します。
具体的には、ソース画像がターゲットプロンプトに従って編集される拡散ベースの編集のコンテキストでは、プロセスは拡散モデルを介してソース画像に対応するノイズを含む潜在ベクトルを取得することから始まります。
このベクトルはその後、編集のために別々のソースとターゲットの拡散ブランチに供給されます。
この反転プロセスの精度は、最終的な編集結果に大きく影響し、ソース画像の重要なコンテンツの保存と、ターゲット プロンプトに従った編集の忠実度の両方に影響します。
以前の反転手法は、ソースとターゲットの両方の拡散ブランチで統一された解決策を見つけることを目的としていました。
しかし、私たちの理論的および経験的分析により、これらの分岐を解消すると、重要なコンテンツを保存し、編集の忠実性を確保する責任が明確に分離されることが明らかになりました。
この洞察に基づいて、わずか 3 行のコードで両方のブランチの最適なパフォーマンスを実現する新しい手法である「ダイレクト インバージョン」を紹介します。
画像編集のパフォーマンスを評価するために、多様なシーンと編集タイプを示す 700 枚の画像を備えた編集ベンチマークである PIE-Bench を、多彩な注釈と包括的な評価指標を伴って提示します。
最先端の最適化ベースの反転技術と比較して、当社のソリューションは 8 つの編集方法にわたって優れたパフォーマンスを発揮するだけでなく、ほぼ 1 桁の高速化も達成します。

要約(オリジナル)

Text-guided diffusion models have revolutionized image generation and editing, offering exceptional realism and diversity. Specifically, in the context of diffusion-based editing, where a source image is edited according to a target prompt, the process commences by acquiring a noisy latent vector corresponding to the source image via the diffusion model. This vector is subsequently fed into separate source and target diffusion branches for editing. The accuracy of this inversion process significantly impacts the final editing outcome, influencing both essential content preservation of the source image and edit fidelity according to the target prompt. Prior inversion techniques aimed at finding a unified solution in both the source and target diffusion branches. However, our theoretical and empirical analyses reveal that disentangling these branches leads to a distinct separation of responsibilities for preserving essential content and ensuring edit fidelity. Building on this insight, we introduce ‘Direct Inversion,’ a novel technique achieving optimal performance of both branches with just three lines of code. To assess image editing performance, we present PIE-Bench, an editing benchmark with 700 images showcasing diverse scenes and editing types, accompanied by versatile annotations and comprehensive evaluation metrics. Compared to state-of-the-art optimization-based inversion techniques, our solution not only yields superior performance across 8 editing methods but also achieves nearly an order of speed-up.

arxiv情報

著者 Xuan Ju,Ailing Zeng,Yuxuan Bian,Shaoteng Liu,Qiang Xu
発行日 2023-10-19 13:02:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク