Continuous Layout Editing of Single Images with Diffusion Models

要約

大規模なテキストから画像への拡散モデルの最近の進歩により、画像編集における多くのアプリケーションが可能になりました。
ただし、これらの方法はどれも、単一の既存の画像のレイアウトを編集できませんでした。
このギャップに対処するために、単一画像の視覚的特性を維持しながらレイアウト編集を行うための最初のフレームワークを提案します。これにより、単一画像の継続的な編集が可能になります。
私たちのアプローチは 2 つの主要なモジュールを通じて実現されます。
まず、画像内の複数のオブジェクトの特性を保存するために、マスクされたテキスト反転と呼ばれる新しい方法を使用して、さまざまなオブジェクトの概念を解きほぐし、個別のテキスト トークンに埋め込みます。
次に、学習済みの拡散モデルのレイアウト制御を実行するトレーニング不要の最適化手法を提案します。これにより、学習した概念で画像を再生成し、ユーザー指定のレイアウトに合わせることができます。
既存の画像のレイアウトを編集する最初のフレームワークとして、私たちの方法が効果的であり、このタスクをサポートするために変更された他のベースラインよりも優れていることを実証します。
私たちのコードは、承認され次第、自由に一般公開されます。

要約(オリジナル)

Recent advancements in large-scale text-to-image diffusion models have enabled many applications in image editing. However, none of these methods have been able to edit the layout of single existing images. To address this gap, we propose the first framework for layout editing of a single image while preserving its visual properties, thus allowing for continuous editing on a single image. Our approach is achieved through two key modules. First, to preserve the characteristics of multiple objects within an image, we disentangle the concepts of different objects and embed them into separate textual tokens using a novel method called masked textual inversion. Next, we propose a training-free optimization method to perform layout control for a pre-trained diffusion model, which allows us to regenerate images with learned concepts and align them with user-specified layouts. As the first framework to edit the layout of existing images, we demonstrate that our method is effective and outperforms other baselines that were modified to support this task. Our code will be freely available for public use upon acceptance.

arxiv情報

著者 Zhiyuan Zhang,Zhitong Huang,Jing Liao
発行日 2023-06-22 17:51:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク