Factorized Diffusion: Perceptual Illusions by Noise Decomposition

要約

画像を線形成分の合計に因数分解して、拡散モデルのサンプリングを通じて個々の成分を制御するゼロショット法を提案します。
たとえば、画像を低空間周波数と高空間周波数に分解し、これらのコンポーネントをさまざまなテキスト プロンプトで条件付けることができます。
これにより、見る距離に応じて見え方が変わるハイブリッド画像が生成されます。
画像を 3 つの周波数サブバンドに分解することで、3 つのプロンプトを持つハイブリッド画像を生成できます。
また、グレースケールとカラー コンポーネントへの分解を使用して、グレースケールで表示すると外観が変化する画像を生成します。これは、薄暗い照明の下で自然に発生する現象です。
また、モーション ブラー カーネルによる分解を調査します。モーション ブラー カーネルは、モーション ブラーの下で外観が変化する画像を生成します。
私たちの方法は、さまざまなプロンプトに基づいて条件付けされたノイズ推定値のコンポーネントから構築された複合ノイズ推定値を使用してノイズを除去することによって機能します。
また、特定の分解では、私たちの方法が組成生成と空間制御への以前のアプローチを回復することも示します。
最後に、実際の画像からハイブリッド画像を生成するアプローチを拡張できることを示します。
これを行うには、1 つのコンポーネントを固定して残りのコンポーネントを生成し、逆問題を効果的に解決します。

要約(オリジナル)

Given a factorization of an image into a sum of linear components, we present a zero-shot method to control each individual component through diffusion model sampling. For example, we can decompose an image into low and high spatial frequencies and condition these components on different text prompts. This produces hybrid images, which change appearance depending on viewing distance. By decomposing an image into three frequency subbands, we can generate hybrid images with three prompts. We also use a decomposition into grayscale and color components to produce images whose appearance changes when they are viewed in grayscale, a phenomena that naturally occurs under dim lighting. And we explore a decomposition by a motion blur kernel, which produces images that change appearance under motion blurring. Our method works by denoising with a composite noise estimate, built from the components of noise estimates conditioned on different prompts. We also show that for certain decompositions, our method recovers prior approaches to compositional generation and spatial control. Finally, we show that we can extend our approach to generate hybrid images from real images. We do this by holding one component fixed and generating the remaining components, effectively solving an inverse problem.

arxiv情報

著者 Daniel Geng,Inbum Park,Andrew Owens
発行日 2024-04-17 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク