Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models

要約

私たちは、多視点の錯視、つまり反転や回転などの変換によって外観が変化する画像を合成する問題に取り組みます。
我々は、既製のテキストから画像への拡散モデルからこれらの錯視を取得するためのシンプルなゼロショット方法を提案します。
逆拡散プロセス中に、ノイズの多い画像のさまざまなビューからノイズを推定します。
次に、これらのノイズ推定値を組み合わせて、画像のノイズを除去します。
理論的分析によると、この方法は直交変換として記述できるビュー (順列がサブセットである) に対して正確に機能することが示唆されています。
これは、視覚的アナグラム、つまりピクセルの再配置によって外観が変化する画像のアイデアにつながります。
これには、回転や反転だけでなく、ジグソーの再配置など、より特殊なピクセルの並べ替えも含まれます。
私たちのアプローチは、当然のことながら、3 つ以上のビューを持つイリュージョンにも拡張されます。
当社は、手法の有効性と柔軟性を示す定性的および定量的結果の両方を提供します。
追加の視覚化と結果については、プロジェクトの Web ページを参照してください: https://dangeng.github.io/visual_anagrams/

要約(オリジナル)

We address the problem of synthesizing multi-view optical illusions: images that change appearance upon a transformation, such as a flip or rotation. We propose a simple, zero-shot method for obtaining these illusions from off-the-shelf text-to-image diffusion models. During the reverse diffusion process, we estimate the noise from different views of a noisy image. We then combine these noise estimates together and denoise the image. A theoretical analysis suggests that this method works precisely for views that can be written as orthogonal transformations, of which permutations are a subset. This leads to the idea of a visual anagram–an image that changes appearance under some rearrangement of pixels. This includes rotations and flips, but also more exotic pixel permutations such as a jigsaw rearrangement. Our approach also naturally extends to illusions with more than two views. We provide both qualitative and quantitative results demonstrating the effectiveness and flexibility of our method. Please see our project webpage for additional visualizations and results: https://dangeng.github.io/visual_anagrams/

arxiv情報

著者 Daniel Geng,Inbum Park,Andrew Owens
発行日 2023-11-29 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク