Pyramid Diffusion for Fine 3D Large Scene Generation

要約

拡散モデルは、2D 画像や小規模の 3D オブジェクトの生成において顕著な結果を示しています。
ただし、大規模な 3D シーンの合成への応用はほとんど検討されていません。
これは主に、3D 風景データ、特に屋外シーンの固有の複雑さとサイズが大きいこと、および包括的な現実世界のデータセットの利用が限られているため、安定したシーン拡散モデルのトレーニングが困難になっていることが原因です。
この研究では、粗密パラダイムを使用して大規模な 3D シーンを効果的に生成する方法を検討します。
スケール可変の拡散モデルを使用して高品質の屋外シーンを段階的に生成するフレームワークであるピラミッド離散拡散モデル (PDD) を紹介します。
PDD の実験結果は、無条件および条件付きの両方で 3D シーンを生成する探査が成功したことを示しています。
さらに、マルチスケール アーキテクチャによる PDD モデルのデータ互換性を紹介します。1 つのデータセットでトレーニングされた PDD モデルは、別のデータセットで簡単に微調整できます。
コードは https://github.com/yuhengliu02/pyramid-discrete-diffusion で入手できます。

要約(オリジナル)

Diffusion models have shown remarkable results in generating 2D images and small-scale 3D objects. However, their application to the synthesis of large-scale 3D scenes has been rarely explored. This is mainly due to the inherent complexity and bulky size of 3D scenery data, particularly outdoor scenes, and the limited availability of comprehensive real-world datasets, which makes training a stable scene diffusion model challenging. In this work, we explore how to effectively generate large-scale 3D scenes using the coarse-to-fine paradigm. We introduce a framework, the Pyramid Discrete Diffusion model (PDD), which employs scale-varied diffusion models to progressively generate high-quality outdoor scenes. Experimental results of PDD demonstrate our successful exploration in generating 3D scenes both unconditionally and conditionally. We further showcase the data compatibility of the PDD model, due to its multi-scale architecture: a PDD model trained on one dataset can be easily fine-tuned with another dataset. Code is available at https://github.com/yuhengliu02/pyramid-discrete-diffusion.

arxiv情報

著者 Yuheng Liu,Xinke Li,Xueting Li,Lu Qi,Chongshou Li,Ming-Hsuan Yang
発行日 2024-07-18 16:04:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク