Local Conditional Controlling for Text-to-Image Diffusion Models

要約

拡散モデルは、テキストから画像へのタスクにおいて優れた能力を発揮しました。
最近の方法では、エッジ マップや深度マップなどの画像レベルのコントロールを追加して、テキスト プロンプトとともに生成プロセスを操作し、目的の画像を取得します。
この制御プロセスは画像全体に対してグローバルに実行されるため、制御領域の柔軟性が制限されます。
このホワイトペーパーでは、新しいシンプルかつ実用的なタスク設定であるローカル制御を紹介します。
これは、ユーザー定義の画像条件に従って特定のローカル領域を制御することに焦点を当てており、残りの領域は元のテキスト プロンプトによってのみ条件付けされます。
この方法により、ユーザーは画像生成をきめ細かい方法で柔軟に制御できます。
ただし、この目標を達成するのは簡単ではありません。
局所条件を直接追加する単純な方法は、局所制御支配の問題を引き起こす可能性があります。
この問題を軽減するために、非制御領域での概念生成を促進するために、デノージング プロセス中にクロス アテンション マップのノイズ潜在とパラメーターの更新を活用するトレーニング不要の方法を提案します。
さらに、特徴マスク制約を使用して、ローカル制御領域の内外の情報の違いによって引き起こされる合成画像の品質の劣化を軽減します。
広範な実験により、私たちの方法がローカル制御条件下でプロンプトに合わせて高品質の画像を合成できることが実証されました。
コードは https://github.com/YibooZhao/Local-Control で入手できます。

要約(オリジナル)

Diffusion models have exhibited impressive prowess in the text-to-image task. Recent methods add image-level controls, e.g., edge and depth maps, to manipulate the generation process together with text prompts to obtain desired images. This controlling process is globally operated on the entire image, which limits the flexibility of control regions. In this paper, we introduce a new simple yet practical task setting: local control. It focuses on controlling specific local areas according to user-defined image conditions, where the rest areas are only conditioned by the original text prompt. This manner allows the users to flexibly control the image generation in a fine-grained way. However, it is non-trivial to achieve this goal. The naive manner of directly adding local conditions may lead to the local control dominance problem. To mitigate this problem, we propose a training-free method that leverages the updates of noised latents and parameters in the cross-attention map during the denosing process to promote concept generation in non-control areas. Moreover, we use feature mask constraints to mitigate the degradation of synthesized image quality caused by information differences inside and outside the local control area. Extensive experiments demonstrate that our method can synthesize high-quality images to the prompt under local control conditions. Code is available at https://github.com/YibooZhao/Local-Control.

arxiv情報

著者 Yibo Zhao,Liang Peng,Yang Yang,Zekai Luo,Hengjia Li,Yao Chen,Wei Zhao,qinglin lu,Boxi Wu,Wei Liu
発行日 2024-02-06 14:45:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク