XCube: Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies

要約

我々は、任意の属性を持つ高解像度のまばらな 3D ボクセル グリッドの新しい生成モデルである XCube ($\mathcal{X}^3$ と略されます) を紹介します。
私たちのモデルは、時間のかかるテスト時間の最適化を行わずに、フィードフォワード方式で最大 $1024^3$ の最高有効解像度で数百万のボクセルを生成できます。
これを達成するために、高効率の VDB データ構造上に構築されたカスタム フレームワークを使用して、粗いものから細かいものへと徐々に高解像度のグリッドを生成する階層的なボクセル潜在拡散モデルを採用します。
高解像度のオブジェクトの生成とは別に、10cm という小さなボクセル サイズで 100m$\times$100m の規模の大規模な屋外シーンにおける XCube の有効性を実証します。
過去のアプローチと比較して、明らかな質的および量的な改善が観察されます。
無条件の生成に加えて、ユーザーガイド付き編集、単一スキャンからのシーン完成、テキストから 3D への変換など、さまざまなタスクを解決するためにモデルを使用できることを示します。
ソース コードとその他の結果は、https://research.nvidia.com/labs/toronto-ai/xcube/ でご覧いただけます。

要約(オリジナル)

We present XCube (abbreviated as $\mathcal{X}^3$), a novel generative model for high-resolution sparse 3D voxel grids with arbitrary attributes. Our model can generate millions of voxels with a finest effective resolution of up to $1024^3$ in a feed-forward fashion without time-consuming test-time optimization. To achieve this, we employ a hierarchical voxel latent diffusion model which generates progressively higher resolution grids in a coarse-to-fine manner using a custom framework built on the highly efficient VDB data structure. Apart from generating high-resolution objects, we demonstrate the effectiveness of XCube on large outdoor scenes at scales of 100m$\times$100m with a voxel size as small as 10cm. We observe clear qualitative and quantitative improvements over past approaches. In addition to unconditional generation, we show that our model can be used to solve a variety of tasks such as user-guided editing, scene completion from a single scan, and text-to-3D. The source code and more results can be found at https://research.nvidia.com/labs/toronto-ai/xcube/.

arxiv情報

著者 Xuanchi Ren,Jiahui Huang,Xiaohui Zeng,Ken Museth,Sanja Fidler,Francis Williams
発行日 2024-06-25 17:01:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク