3D シーンの生成は近年ますます注目を集めており、大きな進歩を遂げています。
4D 都市の生成は、建物や車両など、構造的に複雑で視覚的に多様なオブジェクトが存在し、都市環境の歪みに対する人間の敏感度が高まるため、3D シーンよりも困難です。
これらの問題に取り組むために、私たちは境界のない 4D 都市を生成するために特別に調整された構成生成モデルである CityDreamer4D を提案します。
私たちの主な洞察は、1) 4D 都市生成では、動的オブジェクト (例: 車両) を静的シーン (例: 建物や道路) から分離する必要があること、および 2) 4D シーン内のすべてのオブジェクトが建物のさまざまなタイプのニューラル フィールドで構成されている必要があることです。
具体的には、非常にコンパクトな BEV 表現を使用して動的な交通シナリオと静的な都市レイアウトを生成する交通シナリオ ジェネレーターと無制限レイアウト ジェネレーターを提案します。
4D 都市のオブジェクトは、背景、建物、車両のスタッフ指向のニューラル フィールドとインスタンス指向のニューラル フィールドを組み合わせることによって生成されます。
背景のものとインスタンスの明確な特性に適合するために、ニューラル フィールドは、シーンのパラメーター化としてカスタマイズされた生成ハッシュ グリッドと周期的な位置埋め込みを採用します。
さらに、OSM、GoogleEarth、CityTopia など、都市生成のための包括的なデータセット スイートを提供します。
OSM データセットはさまざまな現実世界の都市レイアウトを提供し、Google Earth および CityTopia データセットは 3D インスタンスの注釈を備えた大規模で高品質の都市画像を提供します。
CityDreamer4D は、その構成設計を活用して、インスタンス編集、都市の様式化、都市シミュレーションなどのさまざまな下流アプリケーションをサポートすると同時に、リアルな 4D 都市の生成において最先端のパフォーマンスを提供します。
3D scene generation has garnered growing attention in recent years and has made significant progress. Generating 4D cities is more challenging than 3D scenes due to the presence of structurally complex, visually diverse objects like buildings and vehicles, and heightened human sensitivity to distortions in urban environments. To tackle these issues, we propose CityDreamer4D, a compositional generative model specifically tailored for generating unbounded 4D cities. Our main insights are 1) 4D city generation should separate dynamic objects (e.g., vehicles) from static scenes (e.g., buildings and roads), and 2) all objects in the 4D scene should be composed of different types of neural fields for buildings, vehicles, and background stuff. Specifically, we propose Traffic Scenario Generator and Unbounded Layout Generator to produce dynamic traffic scenarios and static city layouts using a highly compact BEV representation. Objects in 4D cities are generated by combining stuff-oriented and instance-oriented neural fields for background stuff, buildings, and vehicles. To suit the distinct characteristics of background stuff and instances, the neural fields employ customized generative hash grids and periodic positional embeddings as scene parameterizations. Furthermore, we offer a comprehensive suite of datasets for city generation, including OSM, GoogleEarth, and CityTopia. The OSM dataset provides a variety of real-world city layouts, while the Google Earth and CityTopia datasets deliver large-scale, high-quality city imagery complete with 3D instance annotations. Leveraging its compositional design, CityDreamer4D supports a range of downstream applications, such as instance editing, city stylization, and urban simulation, while delivering state-of-the-art performance in generating realistic 4D cities.
著者 | Haozhe Xie,Zhaoxi Chen,Fangzhou Hong,Ziwei Liu |
発行日 | 2025-01-15 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google