Move Anything with Layered Scene Diffusion

要約

拡散モデルはこれまでにない高品質の画像を生成しますが、画像のレイアウトを自由に並べ替えるにはどうすればよいでしょうか?
最近の研究では、空間的に解きほぐされた潜在コードを学習することで制御可能なシーンを生成していますが、これらの方法は固定順プロセスのため拡散モデルには適用できません。
この研究では、拡散サンプリング プロセス中にレイヤー化されたシーン表現を最適化するために、SceneDiffusion を提案します。
私たちの重要な洞察は、空間的なもつれの解消は、異なる空間レイアウトでのシーン レンダリングを共同でノイズ除去することで実現できるということです。
生成されたシーンは、移動、サイズ変更、クローン作成、オブジェクトのスタイル変更や置換などのレイヤーごとの外観編集操作など、幅広い空間編集操作をサポートします。
さらに、参照画像に基づいてシーンを生成できるため、実際の画像でオブジェクトを移動させることができます。
特に、このアプローチはトレーニング不要で、一般的なテキストから画像への拡散モデルと互換性があり、1 秒未満で応答します。

要約(オリジナル)

Diffusion models generate images with an unprecedented level of quality, but how can we freely rearrange image layouts? Recent works generate controllable scenes via learning spatially disentangled latent codes, but these methods do not apply to diffusion models due to their fixed forward process. In this work, we propose SceneDiffusion to optimize a layered scene representation during the diffusion sampling process. Our key insight is that spatial disentanglement can be obtained by jointly denoising scene renderings at different spatial layouts. Our generated scenes support a wide range of spatial editing operations, including moving, resizing, cloning, and layer-wise appearance editing operations, including object restyling and replacing. Moreover, a scene can be generated conditioned on a reference image, thus enabling object moving for in-the-wild images. Notably, this approach is training-free, compatible with general text-to-image diffusion models, and responsive in less than a second.

arxiv情報

著者 Jiawei Ren,Mengmeng Xu,Jui-Chieh Wu,Ziwei Liu,Tao Xiang,Antoine Toisoul
発行日 2024-04-10 17:28:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク