On the Opportunities and Challenges of Foundation Models for Geospatial Artificial Intelligence


タイトル:Foundation Modelsを利用したジオスペーシャル人工知能における機会と課題についての研究


– Foundation Models(FM)とは、大規模なタスクにて学習され、ファインチューニング、フューショット、ゼロショット学習を用いて様々なタスクに適応可能な事前学習済みのモデルのこと。
– FMは、言語やビジョンタスクにおいて成功を収めているが、ジオスペーシャル人工知能(GeoAI)においてのFMの利用はまだ見られていない。
– この研究では、GeoAIに対して多様なモードを持つFoundation Modelsの発展の可能性や課題を検討する。
– 著者らは、Geospatial Semantics、Health Geography、Urban Geography、Remote Sensingなど、複数のジオスペーシャルサブドメインにまたがる7つのタスクのパフォーマンスをテストし、既存のFMの可能性を調査している。
– 結果として、地名認識、場所説明認識、米国の州・郡の認知症の統計予測など、テキストモードによるタスクにおいては、タスク固有のフルスーパーバイズモデルよりも、ゼロショット学習、フューショット学習においてFMが現在のところ有効であると示された。
– しかし、POIを基にした都市機能分類、街の雑音強度分類、及びリモートセンシング画像の場面分類など、複数のデータモードが関連するタスクについては、現存のFoundation Modelsはタスク固有のモデルよりも性能が低いことが示された。
– これらの観察に基づいて、ジオスペーシャルタスクの多様性に対処するため、FMをジオスペーシャルアラインメントを通じて多様なタイプのジオスペーシャルデータに理由付けできるマルチモーダルファウンデーションモデルの可能性が示唆された。
– 今後の課題として、GeoAIのためにこのようなモデルを開発するためのユニークなリスクや課題が存在することに議論を締めくくっている。


Large pre-trained models, also known as foundation models (FMs), are trained in a task-agnostic manner on large-scale data and can be adapted to a wide range of downstream tasks by fine-tuning, few-shot, or even zero-shot learning. Despite their successes in language and vision tasks, we have yet seen an attempt to develop foundation models for geospatial artificial intelligence (GeoAI). In this work, we explore the promises and challenges of developing multimodal foundation models for GeoAI. We first investigate the potential of many existing FMs by testing their performances on seven tasks across multiple geospatial subdomains including Geospatial Semantics, Health Geography, Urban Geography, and Remote Sensing. Our results indicate that on several geospatial tasks that only involve text modality such as toponym recognition, location description recognition, and US state-level/county-level dementia time series forecasting, these task-agnostic LLMs can outperform task-specific fully-supervised models in a zero-shot or few-shot learning setting. However, on other geospatial tasks, especially tasks that involve multiple data modalities (e.g., POI-based urban function classification, street view image-based urban noise intensity classification, and remote sensing image scene classification), existing foundation models still underperform task-specific models. Based on these observations, we propose that one of the major challenges of developing a FM for GeoAI is to address the multimodality nature of geospatial tasks. After discussing the distinct challenges of each geospatial data modality, we suggest the possibility of a multimodal foundation model which can reason over various types of geospatial data through geospatial alignments. We conclude this paper by discussing the unique risks and challenges to develop such a model for GeoAI.


著者 Gengchen Mai,Weiming Huang,Jin Sun,Suhang Song,Deepak Mishra,Ninghao Liu,Song Gao,Tianming Liu,Gao Cong,Yingjie Hu,Chris Cundy,Ziyuan Li,Rui Zhu,Ni Lao
発行日 2023-04-13 19:50:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.0 パーマリンク