The Blessing of Randomness: SDE Beats ODE in General Diffusion-based Image Editing


拡散ベースの画像編集のための統一された確率的定式化を提案します。この定式化では、潜在変数はタスク固有の方法で編集され、通常は元の確率方程式または常微分方程式 (SDE または ODE) によって引き起こされる対応する周辺分布から逸脱します。
代わりに、編集用に対応する SDE または ODE を定義します。
この定式化では、時間がゼロに近づくにつれて 2 つの SDE の周辺分布間のカルバック・ライブラー乖離が徐々に減少する一方、ODE の乖離はそのままであることを証明しました。これは、画像編集における SDE の有望性を示しています。
これに触発されて、修復や画像間の変換などのさまざまなタスクで広く使用されている ODE ベースラインに相当する SDE を提供しており、SDE は一貫した大幅な改善を示しています。
さらに、SDE-Drag を提案します。これは、ポイントベースのコンテンツ ドラッグのための SDE 定式化に基づいて構築された、シンプルかつ効果的な方法です。
私たちは、オープンセットの自然画像、アート画像、AI 生成画像を評価用に使用して、挑戦的なベンチマーク (DragBench と呼ばれる) を構築します。
DragBench に関するユーザー調査では、SDE-Drag が ODE ベースライン、既存の拡散ベースの手法、および有名な DragGAN よりも大幅に優れていることが示されています。
私たちの結果は、画像編集における SDE の優位性と多用途性を実証し、拡散ベースの編集方法の境界を押し広げます。


We present a unified probabilistic formulation for diffusion-based image editing, where a latent variable is edited in a task-specific manner and generally deviates from the corresponding marginal distribution induced by the original stochastic or ordinary differential equation (SDE or ODE). Instead, it defines a corresponding SDE or ODE for editing. In the formulation, we prove that the Kullback-Leibler divergence between the marginal distributions of the two SDEs gradually decreases while that for the ODEs remains as the time approaches zero, which shows the promise of SDE in image editing. Inspired by it, we provide the SDE counterparts for widely used ODE baselines in various tasks including inpainting and image-to-image translation, where SDE shows a consistent and substantial improvement. Moreover, we propose SDE-Drag — a simple yet effective method built upon the SDE formulation for point-based content dragging. We build a challenging benchmark (termed DragBench) with open-set natural, art, and AI-generated images for evaluation. A user study on DragBench indicates that SDE-Drag significantly outperforms our ODE baseline, existing diffusion-based methods, and the renowned DragGAN. Our results demonstrate the superiority and versatility of SDE in image editing and push the boundary of diffusion-based editing methods.


著者 Shen Nie,Hanzhong Allan Guo,Cheng Lu,Yuhao Zhou,Chenyu Zheng,Chongxuan Li
発行日 2023-11-02 17:23:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.LG パーマリンク