要約
我々は、大規模な 3D シーン生成のための新しい潜在拡散モデル LT3SD を紹介します。
拡散モデルの最近の進歩により、3D オブジェクトの生成では目覚ましい結果が得られましたが、3D シーンに拡張すると空間範囲と品質が制限されます。
複雑で多様な 3D シーン構造を生成するために、潜在ツリー表現を導入して、低周波ジオメトリと高周波ディテールの両方を粗いものから細かいものまでの階層で効果的にエンコードします。
次に、この潜在 3D シーン空間で生成拡散プロセスを学習し、各解像度レベルでシーンの潜在コンポーネントをモデル化します。
さまざまなサイズの大規模なシーンを合成するには、シーン パッチ上で拡散モデルをトレーニングし、複数のシーン パッチにわたる共有拡散生成を通じて任意のサイズの出力 3D シーンを合成します。
広範な実験を通じて、大規模で高品質の無条件 3D シーン生成と、部分的なシーン観察の確率的完了に対する LT3SD の有効性と利点を実証します。
要約(オリジナル)
We present LT3SD, a novel latent diffusion model for large-scale 3D scene generation. Recent advances in diffusion models have shown impressive results in 3D object generation, but are limited in spatial extent and quality when extended to 3D scenes. To generate complex and diverse 3D scene structures, we introduce a latent tree representation to effectively encode both lower-frequency geometry and higher-frequency detail in a coarse-to-fine hierarchy. We can then learn a generative diffusion process in this latent 3D scene space, modeling the latent components of a scene at each resolution level. To synthesize large-scale scenes with varying sizes, we train our diffusion model on scene patches and synthesize arbitrary-sized output 3D scenes through shared diffusion generation across multiple scene patches. Through extensive experiments, we demonstrate the efficacy and benefits of LT3SD for large-scale, high-quality unconditional 3D scene generation and for probabilistic completion for partial scene observations.
arxiv情報
著者 | Quan Meng,Lei Li,Matthias Nießner,Angela Dai |
発行日 | 2024-09-12 16:55:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google