要約
テキスト駆動の 3D シーン生成技術は、近年急速に進歩しています。
彼らの成功は主に、既存の生成モデルを使用して画像のワーピングと修復を繰り返し実行して 3D シーンを生成したことに起因します。
ただし、これらの方法は既存のモデルの出力に大きく依存しているため、ジオメトリと外観にエラーが蓄積され、さまざまなシナリオ (屋外や非現実的なシナリオなど) でのモデルの使用が妨げられます。
この制限に対処するために、グローバル 3D 情報をクエリして集約することで、新しく生成されたローカル ビューを生成的に調整し、その後 3D シーンを段階的に生成します。
具体的には、グローバルな 3D 一貫性を制約するための 3D シーンの統一表現として、トライプレーン フィーチャベースの NeRF を採用し、2D 拡散モデルから事前に得られた自然画像を活用することで、より高品質の新しいコンテンツを合成する生成リファインメント ネットワークを提案します。
現在のシーンのグローバル 3D 情報も含まれます。
私たちの広範な実験により、以前の方法と比較して、私たちのアプローチは、視覚的な品質と 3D の一貫性が向上し、さまざまなシーン生成と任意のカメラ軌道をサポートしていることが実証されました。
要約(オリジナル)
Text-driven 3D scene generation techniques have made rapid progress in recent years. Their success is mainly attributed to using existing generative models to iteratively perform image warping and inpainting to generate 3D scenes. However, these methods heavily rely on the outputs of existing models, leading to error accumulation in geometry and appearance that prevent the models from being used in various scenarios (e.g., outdoor and unreal scenarios). To address this limitation, we generatively refine the newly generated local views by querying and aggregating global 3D information, and then progressively generate the 3D scene. Specifically, we employ a tri-plane features-based NeRF as a unified representation of the 3D scene to constrain global 3D consistency, and propose a generative refinement network to synthesize new contents with higher quality by exploiting the natural image prior from 2D diffusion model as well as the global 3D information of the current scene. Our extensive experiments demonstrate that, in comparison to previous methods, our approach supports wide variety of scene generation and arbitrary camera trajectories with improved visual quality and 3D consistency.
arxiv情報
著者 | Frank Zhang,Yibo Zhang,Quan Zheng,Rui Ma,Wei Hua,Hujun Bao,Weiwei Xu,Changqing Zou |
発行日 | 2024-03-14 14:31:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google