Blended Latent Diffusion

要約

ニューラル画像生成の驚異的な進歩に加え、全能と思われる視覚言語モデルの出現により、ついにテキストベースの画像作成・編集インタフェースが実現された。一般的な画像を扱うには、多様な生成モデルが必要である。そのため、最新の研究では、多様性の点でGANを上回ることが示された拡散モデルを利用している。しかし、拡散モデルの大きな欠点は、比較的遅い推論時間である。本論文では、一般的な画像の局所的なテキスト駆動型編集を高速化するソリューションを提案する。本論文では、最近のテキストから画像への潜在的拡散モデル(LDM)を利用し、低次元の潜在的空間で動作することにより拡散を高速化するソリューションを提案する。我々はまず、LDMにブレンド拡散を組み込むことにより、LDMをローカル画像エディタに変換する。次に、このLDMに内在する、画像を正確に再構成することができないという問題に対して、最適化に基づく解決策を提案する。最後に、薄いマスクを用いて局所的な編集を行うシナリオを扱う。本手法は、ベースラインに対して定性的、定量的に評価し、高速であることに加え、ベースラインのアーチファクトを軽減しながら、ベースラインよりも高い精度を達成することを実証する。プロジェクトページは https://omriavrahami.com/blended-latent-diffusion-page/ で公開されています。

要約(オリジナル)

The tremendous progress in neural image generation, coupled with the emergence of seemingly omnipotent vision-language models has finally enabled text-based interfaces for creating and editing images. Handling generic images requires a diverse underlying generative model, hence the latest works utilize diffusion models, which were shown to surpass GANs in terms of diversity. One major drawback of diffusion models, however, is their relatively slow inference time. In this paper, we present an accelerated solution to the task of local text-driven editing of generic images, where the desired edits are confined to a user-provided mask. Our solution leverages a recent text-to-image Latent Diffusion Model (LDM), which speeds up diffusion by operating in a lower-dimensional latent space. We first convert the LDM into a local image editor by incorporating Blended Diffusion into it. Next we propose an optimization-based solution for the inherent inability of this LDM to accurately reconstruct images. Finally, we address the scenario of performing local edits using thin masks. We evaluate our method against the available baselines both qualitatively and quantitatively and demonstrate that in addition to being faster, our method achieves better precision than the baselines while mitigating some of their artifacts. Project page is available at https://omriavrahami.com/blended-latent-diffusion-page/

arxiv情報

著者 Omri Avrahami,Ohad Fried,Dani Lischinski
発行日 2022-06-06 17:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク