UrbanWorld: An Urban World Model for 3D City Generation

要約

都市は人間の生活の最も基本的な環境であり、建物、道路、植生などの多様な物理的要素が複雑に相互に関連しています。
現実的でインタラクティブな 3D 都市環境の作成は、現実世界の環境で人間のように認識、意思決定、行動できる AI エージェントを構築する上で重要な役割を果たします。
ただし、忠実度の高い 3D 都市環境を作成するには、通常、複雑な都市特徴の複雑なディテールと正確な表現を伴う、デザイナーによる多大な手作業が必要です。
したがって、これを自動的に行う方法は長年の課題のままです。
この問題に対して、私たちは柔軟な制御条件でカスタマイズされた現実的かつインタラクティブな 3D 都市世界を自動的に作成できる初の生成都市世界モデル、UrbanWorld を提案します。
UrbanWorld には、自動作成パイプラインに 4 つの主要な段階が組み込まれています。オープンにアクセスできる OSM データからの 3D レイアウト生成、強力な都市マルチモーダル大規模言語モデル (Urban MLLM) を使用した都市シーンの計画と設計、高度な 3D 拡散技術を使用した制御可能な都市資産のレンダリング、そして最後に、
MLLM を利用したシーンの洗練。
精巧に作られた忠実度の高い 3D 都市環境により、シミュレーションにおける一般的な AI および機械知覚システムの現実的なフィードバックとインタラクションが可能になります。
私たちは、現実的な都市環境における知覚、意思決定、インタラクションにおける AI 能力を評価および改善するための、オープンソースの多用途プラットフォームとして UrbanWorld に貢献することに取り組んでいます。

要約(オリジナル)

Cities, as the most fundamental environment of human life, encompass diverse physical elements such as buildings, roads and vegetation with complex interconnection. Crafting realistic, interactive 3D urban environments plays a crucial role in constructing AI agents capable of perceiving, decision-making, and acting like humans in real-world environments. However, creating high-fidelity 3D urban environments usually entails extensive manual labor from designers, involving intricate detailing and accurate representation of complex urban features. Therefore, how to accomplish this in an automatical way remains a longstanding challenge. Toward this problem, we propose UrbanWorld, the first generative urban world model that can automatically create a customized, realistic and interactive 3D urban world with flexible control conditions. UrbanWorld incorporates four key stages in the automatical crafting pipeline: 3D layout generation from openly accessible OSM data, urban scene planning and designing with a powerful urban multimodal large language model (Urban MLLM), controllable urban asset rendering with advanced 3D diffusion techniques, and finally the MLLM-assisted scene refinement. The crafted high-fidelity 3D urban environments enable realistic feedback and interactions for general AI and machine perceptual systems in simulations. We are working on contributing UrbanWorld as an open-source and versatile platform for evaluating and improving AI abilities in perception, decision-making, and interaction in realistic urban environments.

arxiv情報

著者 Yu Shang,Jiansheng Chen,Hangyu Fan,Jingtao Ding,Jie Feng,Yong Li
発行日 2024-07-16 17:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク