ControlCity: A Multimodal Diffusion Model Based Approach for Accurate Geospatial Data Generation and Urban Morphology Analysis

要約

ボランティア地理情報 (VGI) は、その種類が豊富で、大容量で、迅速な更新と多様なソースを備えており、地理空間データの重要なソースとなっています。
ただし、OSM などのプラットフォームからの VGI データは、特に都市の建物データの場合、さまざまなデータ タイプ間で品質の大きな不均一性を示します。
これに対処するために、都市の建物のフットプリント データの生成を支援するために、アクセス可能な完全な VGI データを利用する、マルチソースの地理データ変換ソリューションを提案します。
また、精度を向上させるためにマルチモーダルなデータ生成フレームワークも採用しています。
まず、主に道路ネットワーク データに基づいて、他のマルチモーダル データによって補完される、「画像テキスト メタデータ構築フットプリント」データセットを構築するためのパイプラインを紹介します。
次に、マルチモーダル拡散モデルに基づく地理データ変換手法である ControlCity を紹介します。
この方法では、まず、事前トレーニングされたテキストから画像へのモデルを使用して、テキスト、メタデータ、建物のフットプリント データを位置合わせします。
改良された ControlNet は、道路網と土地利用の画像をさらに統合し、洗練された建物の設置面積データを生成します。
世界 22 都市での実験では、ControlCity が実際の都市の建築パターンをうまくシミュレートし、最先端のパフォーマンスを実現していることが実証されています。
具体的には、私たちの方法は平均 FID スコア 50.94 を達成し、主要な方法と比較してエラーを 71.01% 削減し、MIoU スコア 0.36 (38.46% の改善) を達成しました。
さらに、私たちのモデルは、都市形態の転送、ゼロショット都市生成、空間データの完全性評価などのタスクにも優れています。
ゼロショット都市タスクでは、私たちの方法は同様の都市構造を正確に予測して生成し、強力な一般化を示しています。
この研究では、都市の建物のフットプリント データを生成し、複雑な都市の特徴を把握する際の私たちのアプローチの有効性が確認されました。

要約(オリジナル)

Volunteer Geographic Information (VGI), with its rich variety, large volume, rapid updates, and diverse sources, has become a critical source of geospatial data. However, VGI data from platforms like OSM exhibit significant quality heterogeneity across different data types, particularly with urban building data. To address this, we propose a multi-source geographic data transformation solution, utilizing accessible and complete VGI data to assist in generating urban building footprint data. We also employ a multimodal data generation framework to improve accuracy. First, we introduce a pipeline for constructing an ‘image-text-metadata-building footprint’ dataset, primarily based on road network data and supplemented by other multimodal data. We then present ControlCity, a geographic data transformation method based on a multimodal diffusion model. This method first uses a pre-trained text-to-image model to align text, metadata, and building footprint data. An improved ControlNet further integrates road network and land-use imagery, producing refined building footprint data. Experiments across 22 global cities demonstrate that ControlCity successfully simulates real urban building patterns, achieving state-of-the-art performance. Specifically, our method achieves an average FID score of 50.94, reducing error by 71.01% compared to leading methods, and a MIoU score of 0.36, an improvement of 38.46%. Additionally, our model excels in tasks like urban morphology transfer, zero-shot city generation, and spatial data completeness assessment. In the zero-shot city task, our method accurately predicts and generates similar urban structures, demonstrating strong generalization. This study confirms the effectiveness of our approach in generating urban building footprint data and capturing complex city characteristics.

arxiv情報

著者 Fangshuo Zhou,Huaxia Li,Rui Hu,Sensen Wu,Hailin Feng,Zhenhong Du,Liuchang Xu
発行日 2024-09-25 16:03:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク