Compositional Image Decomposition with Diffusion Models

要約

自然のシーンの画像が与えられると、それをオブジェクト、照明、影、前景などのコンポーネントのセットにすばやく分解できます。
次に、特定のコンポーネントを他の画像のコンポーネントと組み合わせるシーンを想像することができます。たとえば、これまでそのようなシーンに遭遇したことがなくても、森の照明条件の下で寝室からの一連のオブジェクトや動物園の動物などです。
本稿では、画像をそのような構成要素に分解する方法を紹介します。
私たちのアプローチである Decomp Diffusion は教師なし手法であり、単一の画像が与えられると、その画像内の異なるコンポーネントのセットを推測し、それぞれが拡散モデルで表されます。
影や表情などのグローバル シーン記述子から構成オブジェクトなどのローカル シーン記述子に至るまで、コンポーネントがシーンのさまざまな要素をどのようにキャプチャできるかを示します。
さらに、他のモデルから推論された因子を使用した場合でも、推論された因子をどのように柔軟に構成して、トレーニング時に見られたものとは大きく異なるさまざまなシーンを生成できるかを示します。
Web サイトとコードは https://energy-based-model.github.io/decomp-diffusion にあります。

要約(オリジナル)

Given an image of a natural scene, we are able to quickly decompose it into a set of components such as objects, lighting, shadows, and foreground. We can then envision a scene where we combine certain components with those from other images, for instance a set of objects from our bedroom and animals from a zoo under the lighting conditions of a forest, even if we have never encountered such a scene before. In this paper, we present a method to decompose an image into such compositional components. Our approach, Decomp Diffusion, is an unsupervised method which, when given a single image, infers a set of different components in the image, each represented by a diffusion model. We demonstrate how components can capture different factors of the scene, ranging from global scene descriptors like shadows or facial expression to local scene descriptors like constituent objects. We further illustrate how inferred factors can be flexibly composed, even with factors inferred from other models, to generate a variety of scenes sharply different than those seen in training time. Website and code at https://energy-based-model.github.io/decomp-diffusion.

arxiv情報

著者 Jocelin Su,Nan Liu,Yanbo Wang,Joshua B. Tenenbaum,Yilun Du
発行日 2024-06-27 16:13:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク