要約
最近、数十億の画像とテキストのペアで事前トレーニングされたテキストから画像への拡散モデルにより、ランダムに初期化された Neural Radiance Fields (NeRF) をスコア蒸留で最適化することにより、テキストから 3D コンテンツの作成が可能になりました。
ただし、結果として得られる 3D モデルには 2 つの制限があります。(a) 飽和した色やヤヌス問題などの品質の問題。
(b) テキストガイドによる画像合成と比較して多様性が極めて低い。
この論文では、NeRF 最適化プロセスとスコア蒸留における均一なタイムステップ サンプリングの間の矛盾がこれらの制限の主な理由であることを示します。
この矛盾を解決するために、単調非増加関数を使用したタイムステップ サンプリングを優先することを提案します。これにより、NeRF の最適化が拡散モデルのサンプリング プロセスと一致します。
広範な実験により、単純な再設計により、より高品質で多様性のあるテキストから 3D コンテンツの作成が大幅に向上することがわかりました。
要約(オリジナル)
Text-to-image diffusion models pre-trained on billions of image-text pairs have recently enabled text-to-3D content creation by optimizing a randomly initialized Neural Radiance Fields (NeRF) with score distillation. However, the resultant 3D models exhibit two limitations: (a) quality concerns such as saturated color and the Janus problem; (b) extremely low diversity comparing to text-guided image synthesis. In this paper, we show that the conflict between NeRF optimization process and uniform timestep sampling in score distillation is the main reason for these limitations. To resolve this conflict, we propose to prioritize timestep sampling with monotonically non-increasing functions, which aligns NeRF optimization with the sampling process of diffusion model. Extensive experiments show that our simple redesign significantly improves text-to-3D content creation with higher quality and diversity.
arxiv情報
著者 | Yukun Huang,Jianan Wang,Yukai Shi,Xianbiao Qi,Zheng-Jun Zha,Lei Zhang |
発行日 | 2023-06-21 17:59:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google