MDP: A Generalized Framework for Text-Guided Image Editing by Manipulating the Diffusion Path

要約

拡散を使用した画像生成は、複数の方法で制御できます。
この論文では、最新の生成拡散ネットワークの方程式を体系的に分析して、適切な操作の設計空間を説明する MDP と呼ばれるフレームワークを提案します。
中間潜在、条件付き埋め込み、相互注意マップ、ガイダンス、予測ノイズを含む 5 つの異なる操作を識別します。
これらの操作の対応するパラメーターと操作スケジュールを分析します。
以前の編集方法のいくつかが、私たちのフレームワークにうまく適合することを示します。
特に、予測されたノイズを操作することにより、特定の構成を新しいタイプのコントロールとして特定しました。これにより、さまざまなローカルおよびグローバル編集の以前の作業よりも高品質の編集を実行できます。

要約(オリジナル)

Image generation using diffusion can be controlled in multiple ways. In this paper, we systematically analyze the equations of modern generative diffusion networks to propose a framework, called MDP, that explains the design space of suitable manipulations. We identify 5 different manipulations, including intermediate latent, conditional embedding, cross attention maps, guidance, and predicted noise. We analyze the corresponding parameters of these manipulations and the manipulation schedule. We show that some previous editing methods fit nicely into our framework. Particularly, we identified one specific configuration as a new type of control by manipulating the predicted noise, which can perform higher-quality edits than previous work for a variety of local and global edits.

arxiv情報

著者 Qian Wang,Biao Zhang,Michael Birsak,Peter Wonka
発行日 2023-03-29 14:57:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク