要約
テキスト プロンプトから無制限のフライスルー シーンを生成する革新的な方法である DreamDrone を紹介します。
私たちの方法の中心となるのは、拡散モデル内の中間特徴の強力な対応を利用する、新しい特徴-対応-ガイダンス拡散プロセスです。
このガイダンス戦略を活用して、中間潜在コードを編集するための高度な技術をさらに提案し、幾何学的一貫性を備えた後続の新しいビューの生成を可能にします。
広範な実験により、DreamDrone が既存の方法を大幅に上回り、優れたビジュアル品質で非常に本物のシーン生成を実現できることが明らかになりました。
このアプローチは、テキスト プロンプトからのゼロショット パーペチュアル ビュー生成における重要な一歩であり、オアシスや洞窟などの自然景観だけでなく、レゴ スタイルのストリート ビューなどの複雑な都市設定を含む、多様なシーンの作成を可能にします。
私たちのコードは公開されています。
要約(オリジナル)
We introduce DreamDrone, an innovative method for generating unbounded flythrough scenes from textual prompts. Central to our method is a novel feature-correspondence-guidance diffusion process, which utilizes the strong correspondence of intermediate features in the diffusion model. Leveraging this guidance strategy, we further propose an advanced technique for editing the intermediate latent code, enabling the generation of subsequent novel views with geometric consistency. Extensive experiments reveal that DreamDrone significantly surpasses existing methods, delivering highly authentic scene generation with exceptional visual quality. This approach marks a significant step in zero-shot perpetual view generation from textual prompts, enabling the creation of diverse scenes, including natural landscapes like oases and caves, as well as complex urban settings such as Lego-style street views. Our code is publicly available.
arxiv情報
著者 | Hanyang Kong,Dongze Lian,Michael Bi Mi,Xinchao Wang |
発行日 | 2023-12-17 19:14:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google