要約
数十億の画像とテキストのペアで事前に訓練されたテキスト-画像拡散モデルは、最近、スコア蒸留を用いてランダムに初期化された微分可能な3D表現を最適化することにより、3Dコンテンツ作成を可能にしている。しかしながら、最適化プロセスは収束に時間がかかり、結果として得られる3Dモデルはしばしば2つの限界を示す。(a)属性の欠落や歪んだ形状やテクスチャなどの品質への懸念、(b)テキストガイドによる画像合成に比べて極めて低い多様性。本論文では、3D最適化プロセスとスコア蒸留における一様なタイムステップサンプリングとの間の矛盾が、これらの限界の主な原因であることを示す。この矛盾を解決するために、単調非増加関数によるタイムステップサンプリングを優先することを提案し、3次元最適化プロセスと拡散モデルのサンプリングプロセスを整合させる。広範な実験により、我々のシンプルな再設計が、より速い収束、より良い品質と多様性を持つ3Dコンテンツ作成を大幅に改善することが示された。
要約(オリジナル)
Text-to-image diffusion models pre-trained on billions of image-text pairs have recently enabled 3D content creation by optimizing a randomly initialized differentiable 3D representation with score distillation. However, the optimization process suffers slow convergence and the resultant 3D models often exhibit two limitations: (a) quality concerns such as missing attributes and distorted shape and texture; (b) extremely low diversity comparing to text-guided image synthesis. In this paper, we show that the conflict between the 3D optimization process and uniform timestep sampling in score distillation is the main reason for these limitations. To resolve this conflict, we propose to prioritize timestep sampling with monotonically non-increasing functions, which aligns the 3D optimization process with the sampling process of diffusion model. Extensive experiments show that our simple redesign significantly improves 3D content creation with faster convergence, better quality and diversity.
arxiv情報
著者 | Yukun Huang,Jianan Wang,Yukai Shi,Boshi Tang,Xianbiao Qi,Lei Zhang |
発行日 | 2024-05-06 14:23:25+00:00 |
arxivサイト | arxiv_id(pdf) |