要約
都市シーンの生成は近年急速に発展している。しかし、既存の手法は主に静的で単一フレームのシーンを生成することに重点を置いており、実世界の走行環境が本質的に動的であることを見落としている。本研究では、セマンティクスを持つ大規模で高品質な動的4Dシーンを生成できる、新しい4D占有シーン生成フレームワークであるDynamicCityを紹介する。DynamicCityは主に2つの主要なモデルから構成される。1) コンパクトな4D表現としてHexPlaneを学習するためのVAEモデル。DynamicCityは、素朴な平均化操作の代わりに、HexPlane構築のために4D特徴を6つの2D特徴マップに効果的に圧縮する新しい投影モジュールを採用し、HexPlaneフィッティング品質を大幅に向上させる(最大12.56mIoUゲイン)。さらに、Expansion & Squeezeストラテジーを用いて3次元特徴量を並列に再構成することで、各3次元点を素朴に問い合わせるよりも、ネットワークの学習効率と再構成精度の両方を向上させる(最大7.05mIoUの利得、2.06倍の学習速度向上、70.84%のメモリ削減)。2) HexPlane生成のためのDiTベースの拡散モデル。HexPlaneをDiT生成に対応させるために、HexPlaneの6つの特徴面をすべて2乗2次元特徴マップとして再構成するPadded Rollout Operationを提案する。特に、拡散処理やサンプリング処理に様々な条件を導入することで、軌跡駆動型やコマンド駆動型の生成、インペインティング、レイアウト条件付き生成など、多彩な4次元生成アプリケーションをサポートすることができる。CarlaSCおよびWaymoデータセットでの広範な実験により、DynamicCityが複数のメトリクスにわたって既存の最先端4D占有率生成手法を大幅に上回ることが実証された。コードとモデルは、将来の研究を促進するために公開されています。
要約(オリジナル)
Urban scene generation has been developing rapidly recently. However, existing methods primarily focus on generating static and single-frame scenes, overlooking the inherently dynamic nature of real-world driving environments. In this work, we introduce DynamicCity, a novel 4D occupancy generation framework capable of generating large-scale, high-quality dynamic 4D scenes with semantics. DynamicCity mainly consists of two key models. 1) A VAE model for learning HexPlane as the compact 4D representation. Instead of using naive averaging operations, DynamicCity employs a novel Projection Module to effectively compress 4D features into six 2D feature maps for HexPlane construction, which significantly enhances HexPlane fitting quality (up to 12.56 mIoU gain). Furthermore, we utilize an Expansion & Squeeze Strategy to reconstruct 3D feature volumes in parallel, which improves both network training efficiency and reconstruction accuracy than naively querying each 3D point (up to 7.05 mIoU gain, 2.06x training speedup, and 70.84% memory reduction). 2) A DiT-based diffusion model for HexPlane generation. To make HexPlane feasible for DiT generation, a Padded Rollout Operation is proposed to reorganize all six feature planes of the HexPlane as a squared 2D feature map. In particular, various conditions could be introduced in the diffusion or sampling process, supporting versatile 4D generation applications, such as trajectory- and command-driven generation, inpainting, and layout-conditioned generation. Extensive experiments on the CarlaSC and Waymo datasets demonstrate that DynamicCity significantly outperforms existing state-of-the-art 4D occupancy generation methods across multiple metrics. The code and models have been released to facilitate future research.
arxiv情報
著者 | Hengwei Bian,Lingdong Kong,Haozhe Xie,Liang Pan,Yu Qiao,Ziwei Liu |
発行日 | 2025-03-03 04:31:23+00:00 |
arxivサイト | arxiv_id(pdf) |