要約
大規模な3Dシーン生成のための新しい潜在拡散モデルであるLT3SDを提示します。
拡散モデルの最近の進歩は、3Dオブジェクト生成で印象的な結果を示していますが、3Dシーンに拡張すると空間的な範囲と品質が限られています。
複雑で多様な3Dシーン構造を生成するために、粗周波のジオメトリと高周波の詳細の両方を粗から微細な階層に効果的にエンコードするために、潜在ツリー表現を導入します。
その後、この潜在的な3Dシーン空間で生成的拡散プロセスを学習し、各解像度レベルでシーンの潜在コンポーネントをモデル化できます。
さまざまなサイズの大規模なシーンを合成するために、シーンパッチで拡散モデルをトレーニングし、複数のシーンパッチにわたって共有された拡散生成を通じて任意のサイズの出力3Dシーンを合成します。
広範な実験を通じて、大規模で高品質の無条件の3Dシーン生成のためのLT3SDの有効性と利点を示し、部分的なシーン観測のための確率的完了について実証します。
要約(オリジナル)
We present LT3SD, a novel latent diffusion model for large-scale 3D scene generation. Recent advances in diffusion models have shown impressive results in 3D object generation, but are limited in spatial extent and quality when extended to 3D scenes. To generate complex and diverse 3D scene structures, we introduce a latent tree representation to effectively encode both lower-frequency geometry and higher-frequency detail in a coarse-to-fine hierarchy. We can then learn a generative diffusion process in this latent 3D scene space, modeling the latent components of a scene at each resolution level. To synthesize large-scale scenes with varying sizes, we train our diffusion model on scene patches and synthesize arbitrary-sized output 3D scenes through shared diffusion generation across multiple scene patches. Through extensive experiments, we demonstrate the efficacy and benefits of LT3SD for large-scale, high-quality unconditional 3D scene generation and for probabilistic completion for partial scene observations.
arxiv情報
著者 | Quan Meng,Lei Li,Matthias Nießner,Angela Dai |
発行日 | 2025-05-01 15:23:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google