要約
テキストから3Dへのコンテンツ作成は、特に3Dガウス・スプラッティングの普及により、最近注目を集めている。一般的に、GSベースの手法は、初期化とレンダリングの最適化という2つの重要な段階から構成される。初期化を実現するために、既存の作品では、初期形状を導出するために、ランダム球の初期化やPoint-Eなどの3D拡散モデルを直接適用している。例えば、「犬が飛行機の上に座っている」のような語彙の豊富なテキストには適用できない。このような問題に対処するため、本論文では、語彙の豊富さに応じてテキストから3次元への3次元GS初期化をブーストする新しい一般的なフレームワークを提案する。我々の重要なアイデアは、3Dガウシアンを空間的に均一なボクセルに集約し、3Dガウシアン間の空間的相互作用と、ガウシアンとテキスト間の意味的相互作用を可能にしながら、複雑な形状を表現することである。具体的には、まずボクセル化された表現を構築し、各ボクセルが位置、スケール、回転を固定した3Dガウシアンを保持する。次に、主に2つの新しい構成要素からなる初期化ネットワークを設計する:1)グローバル情報知覚(GIP)ブロックと2)ガウシアン-テキスト融合(GTF)ブロックである。このような設計により、各3次元ガウシアンは他の領域からの空間情報とテキストからの意味情報を同化することができる。広範な実験により、語彙的に単純なテキスト、中程度のテキスト、および難しいテキストを用いることで、Shap-Eなどの既存の手法に対して、高品質な3次元ガウス初期化のフレームワークの優位性が示された。また、我々のフレームワークは、LucidDreamerなどのSoTAトレーニングフレームワークにシームレスにプラグインすることができ、意味的に一貫したテキストから3Dへの生成が可能である。
要約(オリジナル)
Text-to-3D content creation has recently received much attention, especially with the prevalence of 3D Gaussians Splatting. In general, GS-based methods comprise two key stages: initialization and rendering optimization. To achieve initialization, existing works directly apply random sphere initialization or 3D diffusion models, e.g., Point-E, to derive the initial shapes. However, such strategies suffer from two critical yet challenging problems: 1) the final shapes are still similar to the initial ones even after training; 2) shapes can be produced only from simple texts, e.g., ‘a dog’, not for lexically richer texts, e.g., ‘a dog is sitting on the top of the airplane’. To address these problems, this paper proposes a novel general framework to boost the 3D GS Initialization for text-to-3D generation upon the lexical richness. Our key idea is to aggregate 3D Gaussians into spatially uniform voxels to represent complex shapes while enabling the spatial interaction among the 3D Gaussians and semantic interaction between Gaussians and texts. Specifically, we first construct a voxelized representation, where each voxel holds a 3D Gaussian with its position, scale, and rotation fixed while setting opacity as the sole factor to determine a position’s occupancy. We then design an initialization network mainly consisting of two novel components: 1) Global Information Perception (GIP) block and 2) Gaussians-Text Fusion (GTF) block. Such a design enables each 3D Gaussian to assimilate the spatial information from other areas and semantic information from texts. Extensive experiments show the superiority of our framework of high-quality 3D GS initialization against the existing methods, e.g., Shap-E, by taking lexically simple, medium, and hard texts. Also, our framework can be seamlessly plugged into SoTA training frameworks, e.g., LucidDreamer, for semantically consistent text-to-3D generation.
arxiv情報
著者 | Lutao Jiang,Hangyu Li,Lin Wang |
発行日 | 2024-08-02 13:46:15+00:00 |
arxivサイト | arxiv_id(pdf) |