GaussianCity: Generative Gaussian Splatting for Unbounded 3D City Generation

要約

NeRF ベースの手法による 3D 都市生成は有望な生成結果を示しますが、計算効率が非効率です。
最近、3D ガウス スプラッティング (3D-GS) が、オブジェクトレベルの 3D 生成の非常に効率的な代替手段として登場しました。
ただし、有限スケールの 3D オブジェクトや人間から無限スケールの 3D 都市に 3D-GS を適応させることは簡単ではありません。
無制限の 3D 都市生成には、ポイントを数十億に拡張する必要があることから発生する大幅なストレージ オーバーヘッド (メモリ不足の問題) が伴い、多くの場合、10km^2 にわたる都市シーンに数百ギガバイトの VRAM が必要になります。
この論文では、単一のフィードフォワード パスで境界のない 3D 都市を効率的に合成することに特化した生成ガウス スプラッティング フレームワークである GaussianCity を提案します。
私たちの重要な洞察は次の 2 つです。 1) コンパクトな 3D シーン表現: 非常にコンパクトな中間表現として BEV-Point を導入し、境界のないシーンでの VRAM 使用量の増加が一定に保たれるようにし、境界のない都市の生成を可能にします。
2) 空間認識ガウス属性デコーダー: 3D ガウス属性を生成する空間認識 BEV ポイント デコーダーを紹介します。これは、Point Serializer を利用して BEV ポイントの構造的およびコンテキスト特性を統合します。
広範な実験により、GaussianCity がドローン ビューとストリート ビューの 3D 都市生成の両方で最先端の結果を達成できることが実証されました。
特に、CityDreamer と比較して、GaussianCity は 60 倍のスピードアップ (10.72 FPS 対 0.18 FPS) という優れたパフォーマンスを示します。

要約(オリジナル)

3D city generation with NeRF-based methods shows promising generation results but is computationally inefficient. Recently 3D Gaussian Splatting (3D-GS) has emerged as a highly efficient alternative for object-level 3D generation. However, adapting 3D-GS from finite-scale 3D objects and humans to infinite-scale 3D cities is non-trivial. Unbounded 3D city generation entails significant storage overhead (out-of-memory issues), arising from the need to expand points to billions, often demanding hundreds of Gigabytes of VRAM for a city scene spanning 10km^2. In this paper, we propose GaussianCity, a generative Gaussian Splatting framework dedicated to efficiently synthesizing unbounded 3D cities with a single feed-forward pass. Our key insights are two-fold: 1) Compact 3D Scene Representation: We introduce BEV-Point as a highly compact intermediate representation, ensuring that the growth in VRAM usage for unbounded scenes remains constant, thus enabling unbounded city generation. 2) Spatial-aware Gaussian Attribute Decoder: We present spatial-aware BEV-Point decoder to produce 3D Gaussian attributes, which leverages Point Serializer to integrate the structural and contextual characteristics of BEV points. Extensive experiments demonstrate that GaussianCity achieves state-of-the-art results in both drone-view and street-view 3D city generation. Notably, compared to CityDreamer, GaussianCity exhibits superior performance with a speedup of 60 times (10.72 FPS v.s. 0.18 FPS).

arxiv情報

著者 Haozhe Xie,Zhaoxi Chen,Fangzhou Hong,Ziwei Liu
発行日 2024-06-10 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク