要約
単一のビジュアル コンテンツがさまざまな視点からの異なる解釈を提供する場合、多視点イリュージョンを自動的に生成することは、切実な課題です。
シャドウ アートやワイヤー アートなどの従来の手法は、興味深い 3D イリュージョンを作成しますが、単純な視覚的出力 (つまり、図形の地面や線の描画) に限定されており、芸術的な表現力や実用的な多用途性が制限されています。
最近の拡散ベースの錯視生成方法は、より複雑なデザインを生成できますが、2D 画像に限定されます。
この研究では、ユーザーが提供したテキスト プロンプトまたは画像に基づいて 3D マルチビュー イリュージョンを作成するためのシンプルかつ効果的なアプローチを紹介します。
私たちの手法では、事前にトレーニングされたテキストから画像への拡散モデルを活用し、微分可能なレンダリングを通じてニューラル 3D 表現のテクスチャとジオメトリを最適化します。
さまざまな角度から見ると、さまざまな解釈が生まれます。
私たちは、生成された 3D マルチビュー イリュージョンの品質を向上させるためのいくつかの技術を開発しました。
私たちは広範な実験を通じてアプローチの有効性を実証し、多様な 3D フォームによるイリュージョン生成を紹介します。
要約(オリジナル)
Automatically generating multiview illusions is a compelling challenge, where a single piece of visual content offers distinct interpretations from different viewing perspectives. Traditional methods, such as shadow art and wire art, create interesting 3D illusions but are limited to simple visual outputs (i.e., figure-ground or line drawing), restricting their artistic expressiveness and practical versatility. Recent diffusion-based illusion generation methods can generate more intricate designs but are confined to 2D images. In this work, we present a simple yet effective approach for creating 3D multiview illusions based on user-provided text prompts or images. Our method leverages a pre-trained text-to-image diffusion model to optimize the textures and geometry of neural 3D representations through differentiable rendering. When viewed from multiple angles, this produces different interpretations. We develop several techniques to improve the quality of the generated 3D multiview illusions. We demonstrate the effectiveness of our approach through extensive experiments and showcase illusion generation with diverse 3D forms.
arxiv情報
著者 | Yue Feng,Vaibhav Sanjay,Spencer Lutz,Badour AlBahar,Songwei Ge,Jia-Bin Huang |
発行日 | 2024-12-12 18:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google