GVGEN: Text-to-3D Generation with Volumetric Representation

要約

近年、3D ガウス スプラッティングは 3D 再構成および生成のための強力な技術として台頭しており、その高速かつ高品質なレンダリング機能で知られています。
これらの欠点に対処するために、この文書では、テキスト入力から 3D ガウス表現を効率的に生成するように設計された新しい拡散ベースのフレームワーク GVGEN を紹介します。
私たちは 2 つの革新的な手法を提案します。(1) 構造化された体積表現。
まず、組織化されていない 3D ガウス点を構造化された形式の Gaussian Volume として配置します。
この変換により、固定数のガウスから構成されるボリューム内の複雑なテクスチャの詳細をキャプチャできるようになります。
これらの詳細の表現をより適切に最適化するために、候補プール戦略と呼ばれる独自の枝刈りおよび高密度化手法を提案し、選択的な最適化を通じて詳細の忠実度を高めます。
(2) 粗いものから細かいものへの生成パイプライン。
GaussianVolume の生成を簡素化し、モデルが詳細な 3D ジオメトリを持つインスタンスを生成できるようにするために、粗いから細かいまでのパイプラインを提案します。
最初に基本的な幾何学的構造を構築し、続いて完全なガウス属性を予測します。
当社のフレームワークである GVGEN は、既存の 3D 生成手法と比較して、定性的および定量的評価において優れたパフォーマンスを示します。
同時に、高速な生成速度 ($\sim$7 秒) を維持し、品質と効率のバランスを効果的に保ちます。

要約(オリジナル)

In recent years, 3D Gaussian splatting has emerged as a powerful technique for 3D reconstruction and generation, known for its fast and high-quality rendering capabilities. To address these shortcomings, this paper introduces a novel diffusion-based framework, GVGEN, designed to efficiently generate 3D Gaussian representations from text input. We propose two innovative techniques:(1) Structured Volumetric Representation. We first arrange disorganized 3D Gaussian points as a structured form GaussianVolume. This transformation allows the capture of intricate texture details within a volume composed of a fixed number of Gaussians. To better optimize the representation of these details, we propose a unique pruning and densifying method named the Candidate Pool Strategy, enhancing detail fidelity through selective optimization. (2) Coarse-to-fine Generation Pipeline. To simplify the generation of GaussianVolume and empower the model to generate instances with detailed 3D geometry, we propose a coarse-to-fine pipeline. It initially constructs a basic geometric structure, followed by the prediction of complete Gaussian attributes. Our framework, GVGEN, demonstrates superior performance in qualitative and quantitative assessments compared to existing 3D generation methods. Simultaneously, it maintains a fast generation speed ($\sim$7 seconds), effectively striking a balance between quality and efficiency.

arxiv情報

著者 Xianglong He,Junyi Chen,Sida Peng,Di Huang,Yangguang Li,Xiaoshui Huang,Chun Yuan,Wanli Ouyang,Tong He
発行日 2024-03-19 17:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク