要約
建物の建設年を推定することは、持続可能性にとって非常に重要です。
持続可能な建物は、エネルギー消費を最小限に抑え、気候変動と効果的に戦うための責任ある持続可能な都市計画と開発の重要な部分です。
人工知能(AI)を使用し、最近提案されたトランスモデルを使用することにより、マルチモーダルデータセットから建物の建設エポックを推定することができます。
このホワイトペーパーでは、新しいベンチマークマルチモーダルデータセット、つまり、Copernicus sentinelからのトップビューの非常に高解像度(VHR)画像、地球観測(EO)マルチスペクトルデータを含む、新しいベンチマークマルチモーダルデータセット、つまりCity Dataset(MYCD)を紹介します。
2つの衛星星座、およびヨーロッパの多くの異なる都市におけるストリートビュー画像は、調査中の建物と共局在し、建設エポックとラベル付けされています。
トレーニングから保留され、推論中にのみ表示されていた新しい/以前に目に見えない都市のEO一般化パフォーマンスを評価します。
この作業では、MYCDに基づいて組織したコミュニティベースのデータチャレンジを提示します。
ESA AI4EOチャレンジMapYourcityは、2024年に4か月間オープンしました。
ここでは、トップ4のパフォーマンスモデルと主な評価結果を紹介します。
推論中、3つの入力モダリティすべてと2つのトップビューモダリティのみ、つまりStreet-View画像なしの両方を使用してモデルのパフォーマンスを調べます。
評価結果は、モデルが効果的であり、以前に見えなかった都市でさえ、建物の年齢を推定するというこの困難な現実世界のタスクで良いパフォーマンスを達成できることを示しており、2つのトップビューのモダリティ(つまり、VHRとVHRとVHRと
Sentinel-2)推論中。
要約(オリジナル)
Estimating the construction year of buildings is of great importance for sustainability. Sustainable buildings minimize energy consumption and are a key part of responsible and sustainable urban planning and development to effectively combat climate change. By using Artificial Intelligence (AI) and recently proposed Transformer models, we are able to estimate the construction epoch of buildings from a multi-modal dataset. In this paper, we introduce a new benchmark multi-modal dataset, i.e. the Map your City Dataset (MyCD), containing top-view Very High Resolution (VHR) images, Earth Observation (EO) multi-spectral data from the Copernicus Sentinel-2 satellite constellation, and street-view images in many different cities in Europe, co-localized with respect to the building under study and labelled with the construction epoch. We assess EO generalization performance on new/ previously unseen cities that have been held-out from training and appear only during inference. In this work, we present the community-based data challenge we organized based on MyCD. The ESA AI4EO Challenge MapYourCity was opened in 2024 for 4 months. Here, we present the Top-4 performing models, and the main evaluation results. During inference, the performance of the models using both all three input modalities and only the two top-view modalities, i.e. without the street-view images, is examined. The evaluation results show that the models are effective and can achieve good performance on this difficult real-world task of estimating the age of buildings, even on previously unseen cities, as well as even using only the two top-view modalities (i.e. VHR and Sentinel-2) during inference.
arxiv情報
著者 | Nikolaos Dionelis,Nicolas Longépé,Alessandra Feliciotti,Mattia Marconcini,Devis Peressutti,Nika Oman Kadunc,JaeWan Park,Hagai Raja Sinulingga,Steve Andreas Immanuel,Ba Tran,Caroline Arnold |
発行日 | 2025-02-19 15:31:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google