要約
テキストから 3D への生成は、スコア蒸留の出現により、ここ数日で急速な進歩を遂げています。これは、トレーニング済みのテキストから 2D への拡散モデルを使用して、ゼロ ショット設定でニューラル ラディアンス フィールド (NeRF) を最適化する方法論です。
ただし、2D 拡散モデルでの 3D 認識の欠如は、もっともらしい 3D シーンの再構築からスコア蒸留ベースの方法を不安定にします。
この問題に対処するために、3D 認識を事前トレーニング済みの 2D 拡散モデルに組み込み、スコア蒸留ベースの方法の堅牢性と 3D 一貫性を強化する新しいフレームワークである \ours を提案します。
これを実現するには、最初に特定のテキスト プロンプトの粗い 3D 構造を構築し、次に投影されたビュー固有の深度マップを拡散モデルの条件として利用します。
さらに、2D 拡散モデルが、ロバストな生成のために粗い 3D 構造内のエラーとスパース性を処理することを学習できるようにするトレーニング戦略と、シーンのすべての視点で意味の一貫性を確保する方法を紹介します。
私たちのフレームワークは、先行技術の限界を超えており、2D 拡散モデルの 3D 一貫した生成に重要な意味を持っています。
要約(オリジナル)
Text-to-3D generation has shown rapid progress in recent days with the advent of score distillation, a methodology of using pretrained text-to-2D diffusion models to optimize neural radiance field (NeRF) in the zero-shot setting. However, the lack of 3D awareness in the 2D diffusion models destabilizes score distillation-based methods from reconstructing a plausible 3D scene. To address this issue, we propose \ours, a novel framework that incorporates 3D awareness into pretrained 2D diffusion models, enhancing the robustness and 3D consistency of score distillation-based methods. We realize this by first constructing a coarse 3D structure of a given text prompt and then utilizing projected, view-specific depth map as a condition for the diffusion model. Additionally, we introduce a training strategy that enables the 2D diffusion model learns to handle the errors and sparsity within the coarse 3D structure for robust generation, as well as a method for ensuring semantic consistency throughout all viewpoints of the scene. Our framework surpasses the limitations of prior arts, and has significant implications for 3D consistent generation of 2D diffusion models.
arxiv情報
著者 | Junyoung Seo,Wooseok Jang,Min-Seop Kwak,Jaehoon Ko,Hyeonsu Kim,Junho Kim,Jin-Hwa Kim,Jiyoung Lee,Seungryong Kim |
発行日 | 2023-03-14 14:24:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google