要約
シティシーンの生成は、自動運転、スマートシティ開発、交通シミュレーションにおいて大きな注目を集めています。
インフラストラクチャの計画と監視ソリューションの強化に役立ちます。
既存の手法では、通常、変分オートエンコーダー (VAE)、敵対的生成ネットワーク (GAN)、またはトランスフォーマーを使用して都市レイアウトを生成し、その後にニューラル レンダリングを行う 2 段階のプロセスが採用されています。
これらの手法では、レンダリングされた都市シーンで多様性が限られ、アーティファクトが目立つことがよくあります。
レンダリングされたシーンは多様性に欠け、トレーニング画像に似ており、単調なスタイルになります。
さらに、これらの方法には計画機能が欠けており、生成されるシーンが現実的ではなくなります。
このペーパーでは、都市シーン生成の多様性と質の両方を向上させるために設計された革新的なフレームワークである CityCraft を紹介します。
私たちのアプローチは 3 つの主要な段階を統合しています。最初に、拡散トランス (DiT) モデルを展開して、多様で制御可能な 2D 都市レイアウトを生成します。
その後、大規模言語モデル (LLM) を利用して、ユーザーのプロンプトと言語ガイドラインに基づいて、これらのレイアウト内の土地利用計画を戦略的に作成します。
生成されたレイアウトと都市計画に基づいて、アセット取得モジュールと Blender を利用して、正確なアセットの配置とシーンの構築を行います。
さらに、私たちは 2 つの新しいデータセットをこの分野に提供します。1) 都市エリアの 2D セマンティック レイアウト、対応する衛星画像、および詳細な注釈を含む CityCraft-OSM データセット。
2) CityCraft-Buildings データセット。数千の多様な高品質 3D 建築アセットを特徴とします。
CityCraft は、リアルな 3D 都市の生成において最先端のパフォーマンスを実現します。
要約(オリジナル)
City scene generation has gained significant attention in autonomous driving, smart city development, and traffic simulation. It helps enhance infrastructure planning and monitoring solutions. Existing methods have employed a two-stage process involving city layout generation, typically using Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs), or Transformers, followed by neural rendering. These techniques often exhibit limited diversity and noticeable artifacts in the rendered city scenes. The rendered scenes lack variety, resembling the training images, resulting in monotonous styles. Additionally, these methods lack planning capabilities, leading to less realistic generated scenes. In this paper, we introduce CityCraft, an innovative framework designed to enhance both the diversity and quality of urban scene generation. Our approach integrates three key stages: initially, a diffusion transformer (DiT) model is deployed to generate diverse and controllable 2D city layouts. Subsequently, a Large Language Model(LLM) is utilized to strategically make land-use plans within these layouts based on user prompts and language guidelines. Based on the generated layout and city plan, we utilize the asset retrieval module and Blender for precise asset placement and scene construction. Furthermore, we contribute two new datasets to the field: 1)CityCraft-OSM dataset including 2D semantic layouts of urban areas, corresponding satellite images, and detailed annotations. 2) CityCraft-Buildings dataset, featuring thousands of diverse, high-quality 3D building assets. CityCraft achieves state-of-the-art performance in generating realistic 3D cities.
arxiv情報
著者 | Jie Deng,Wenhao Chai,Junsheng Huang,Zhonghan Zhao,Qixuan Huang,Mingyan Gao,Jianshu Guo,Shengyu Hao,Wenhao Hu,Jenq-Neng Hwang,Xi Li,Gaoang Wang |
発行日 | 2024-06-07 14:49:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google