DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models

要約

既存の大規模な Text-to-Image (T2I) モデルには、詳細なテキスト記述から高品質の画像を生成する機能があるにもかかわらず、生成された画像や実際の画像を正確に編集する機能が欠けていることがよくあります。
この論文では、Diffusion モデルに対するドラッグ スタイルの操作を可能にする新しい画像編集手法 DragonDiffusion を提案します。
具体的には、拡散モデルの中間特徴の強い対応に基づいて分類子ガイダンスを構築します。
特徴対応損失を介して編集信号を勾配に変換し、拡散モデルの中間表現を変更できます。
このガイダンス戦略に基づいて、意味論的配置と幾何学的配置の両方を考慮するためのマルチスケール ガイダンスも構築します。
さらに、元の画像と編集結果の一貫性を維持するために、分岐間のセルフアテンションが追加されます。
私たちの方法は、効率的な設計により、オブジェクトの移動、オブジェクトのサイズ変更、オブジェクトの外観の置き換え、コンテンツのドラッグなど、生成された画像または実際の画像のさまざまな編集モードを実現します。
すべての編集信号とコンテンツ保存信号は画像自体から得られ、モデルには微調整や追加モジュールが必要ないことは注目に値します。
私たちのソースコードは https://github.com/MC-E/DragonDiffusion で入手できます。

要約(オリジナル)

Despite the ability of existing large-scale text-to-image (T2I) models to generate high-quality images from detailed textual descriptions, they often lack the ability to precisely edit the generated or real images. In this paper, we propose a novel image editing method, DragonDiffusion, enabling Drag-style manipulation on Diffusion models. Specifically, we construct classifier guidance based on the strong correspondence of intermediate features in the diffusion model. It can transform the editing signals into gradients via feature correspondence loss to modify the intermediate representation of the diffusion model. Based on this guidance strategy, we also build a multi-scale guidance to consider both semantic and geometric alignment. Moreover, a cross-branch self-attention is added to maintain the consistency between the original image and the editing result. Our method, through an efficient design, achieves various editing modes for the generated or real images, such as object moving, object resizing, object appearance replacement, and content dragging. It is worth noting that all editing and content preservation signals come from the image itself, and the model does not require fine-tuning or additional modules. Our source code will be available at https://github.com/MC-E/DragonDiffusion.

arxiv情報

著者 Chong Mou,Xintao Wang,Jiechong Song,Ying Shan,Jian Zhang
発行日 2023-07-05 16:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク