MVGaussian: High-Fidelity text-to-3D Content Generation with Multi-View Guidance and Surface Densification


テキストから 3D コンテンツへの生成の分野は、スコア蒸留サンプリング (SDS) などの既存の方法論が有望な指針を提供することで、リアルな 3D オブジェクトの生成において大幅な進歩を遂げています。
さらに、3D ガウス分割の最近の進歩により、3D ボリュームの表現におけるその有効性が示されていますが、この表現の最適化についてはほとんど解明されていないままです。
このペーパーでは、これらの重大なギャップに対処する、テキストから 3D コンテンツへの生成のための統合フレームワークを紹介します。
私たちのアプローチでは、マルチビュー ガイダンスを利用して 3D モデルの構造を反復的に形成し、詳細と精度を段階的に向上させます。
特に、私たちの手法はトレーニング後 30 分以内に高品質の結果を達成し、同等の結果を達成するために何時間ものトレーニング時間を必要とするほとんどの既存の手法に比べて効率が大幅に向上します。


The field of text-to-3D content generation has made significant progress in generating realistic 3D objects, with existing methodologies like Score Distillation Sampling (SDS) offering promising guidance. However, these methods often encounter the ‘Janus’ problem-multi-face ambiguities due to imprecise guidance. Additionally, while recent advancements in 3D gaussian splitting have shown its efficacy in representing 3D volumes, optimization of this representation remains largely unexplored. This paper introduces a unified framework for text-to-3D content generation that addresses these critical gaps. Our approach utilizes multi-view guidance to iteratively form the structure of the 3D model, progressively enhancing detail and accuracy. We also introduce a novel densification algorithm that aligns gaussians close to the surface, optimizing the structural integrity and fidelity of the generated models. Extensive experiments validate our approach, demonstrating that it produces high-quality visual outputs with minimal time cost. Notably, our method achieves high-quality results within half an hour of training, offering a substantial efficiency gain over most existing methods, which require hours of training time to achieve comparable results.


著者 Phu Pham,Aradhya N. Mathur,Ojaswa Sharma,Aniket Bera
発行日 2024-09-10 16:16:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.GR パーマリンク