High-Fidelity Guided Image Synthesis with Latent Diffusion Models

要約

ユーザーの落書きを使用した制御可能な画像合成は、最近のテキスト条件付き潜在拡散モデルの出現により、大きな関心を集めています。
ユーザーの落書きは色の構成を制御し、テキスト プロンプトは全体的なイメージ セマンティクスを制御します。
ただし、この方向の以前の作業には、固有のドメインシフトの問題があり、生成された出力には詳細が欠けており、ターゲットドメインの単純な表現に似ていることが多いことに注意してください。
この論文では、出力画像を制約付き最適化問題の解としてモデル化することにより、この問題に対処する新しいガイド付き画像合成フレームワークを提案します。
最適化の正確な解を計算することは実行不可能ですが、逆拡散プロセスを 1 回実行するだけで同じ近似を達成できることを示します。
さらに、入力テキスト トークンとユーザー ストローク ペインティングの間の交差注意ベースの対応を定義するだけで、ユーザーは条件付きトレーニングや微調整を必要とせずに、さまざまなペイント領域のセマンティクスを制御できることも示します。
人間によるユーザー調査の結果によると、提案されたアプローチは、全体的なユーザー満足度スコアで 85.32% 以上も前の最先端技術を上回っています。
私たちの論文のプロジェクト ページは https://1jsingh.github.io/gradop にあります。

要約(オリジナル)

Controllable image synthesis with user scribbles has gained huge public interest with the recent advent of text-conditioned latent diffusion models. The user scribbles control the color composition while the text prompt provides control over the overall image semantics. However, we note that prior works in this direction suffer from an intrinsic domain shift problem, wherein the generated outputs often lack details and resemble simplistic representations of the target domain. In this paper, we propose a novel guided image synthesis framework, which addresses this problem by modeling the output image as the solution of a constrained optimization problem. We show that while computing an exact solution to the optimization is infeasible, an approximation of the same can be achieved while just requiring a single pass of the reverse diffusion process. Additionally, we show that by simply defining a cross-attention based correspondence between the input text tokens and the user stroke-painting, the user is also able to control the semantics of different painted regions without requiring any conditional training or finetuning. Human user study results show that the proposed approach outperforms the previous state-of-the-art by over 85.32% on the overall user satisfaction scores. Project page for our paper is available at https://1jsingh.github.io/gradop.

arxiv情報

著者 Jaskirat Singh,Stephen Gould,Liang Zheng
発行日 2022-11-30 15:43:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク