DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing

要約

正確で制御可能な画像編集は、大きな注目を集めている難しい作業です。
最近、DragGAN により、インタラクティブなポイントベースの画像編集フレームワークが可能になり、ピクセルレベルの精度で印象的な編集結果が得られます。
ただし、この方法は敵対的生成ネットワーク (GAN) に基づいているため、その汎用性は事前トレーニングされた GAN モデルの容量によって上限が決まります。
本研究では、このような編集フレームワークを拡散モデルに拡張し、DragDiffusion を提案します。
大規模な事前トレーニング済み拡散モデルを活用することで、実世界のシナリオにおけるインタラクティブなポイントベース編集の適用性が大幅に向上します。
既存のほとんどの拡散ベースの画像編集方法はテキストの埋め込みに作用しますが、DragDiffusion は拡散潜在力を最適化し、正確な空間制御を実現します。
拡散モデルは反復的に画像を生成しますが、一貫した結果を生成するには単一ステップで拡散潜在を最適化するだけで十分であることが経験的に示され、DragDiffusion が高品質の編集を効率的に完了できるようになります。
幅広い困難なケース (マルチオブジェクト、多様なオブジェクト カテゴリ、さまざまなスタイルなど) にわたる広範な実験により、DragDiffusion の多用途性と汎用性が実証されています。

要約(オリジナル)

Precise and controllable image editing is a challenging task that has attracted significant attention. Recently, DragGAN enables an interactive point-based image editing framework and achieves impressive editing results with pixel-level precision. However, since this method is based on generative adversarial networks (GAN), its generality is upper-bounded by the capacity of the pre-trained GAN models. In this work, we extend such an editing framework to diffusion models and propose DragDiffusion. By leveraging large-scale pretrained diffusion models, we greatly improve the applicability of interactive point-based editing in real world scenarios. While most existing diffusion-based image editing methods work on text embeddings, DragDiffusion optimizes the diffusion latent to achieve precise spatial control. Although diffusion models generate images in an iterative manner, we empirically show that optimizing diffusion latent at one single step suffices to generate coherent results, enabling DragDiffusion to complete high-quality editing efficiently. Extensive experiments across a wide range of challenging cases (e.g., multi-objects, diverse object categories, various styles, etc.) demonstrate the versatility and generality of DragDiffusion.

arxiv情報

著者 Yujun Shi,Chuhui Xue,Jiachun Pan,Wenqing Zhang,Vincent Y. F. Tan,Song Bai
発行日 2023-06-27 11:30:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク