MobCLIP: Learning General-purpose Geospatial Representation at Scale

要約

地理空間上の位置の表現学習は、一般的な地理空間知能を実現する上で、依然として中心的な課題である。現在のエンベッディング手法は汎用性に欠けることが多く、人間や自然の領域における多様なタスクでの利用が制限されている。我々は、効果的でスケーラブルなマルチモーダル融合により、これまでにない多様なデータモダリティを統合した、全国初の汎用位置エンコーダであるMobCLIPを発表する。新しいCLIPベースのアーキテクチャを採用した我々のフレームワークは、100M以上のPOI、全国のリモートセンシング画像、および構造化された人口統計と、10億エッジのモビリティグラフを整合する。ビジョントランスフォーマーに触発されたグリッドセルに空間位置をトークン化することで、モビリティパターンとマルチモーダル特徴を橋渡しする統一的な表現空間を確立する。MobCLIPの汎用的な有効性を厳密に評価するために、社会、経済、自然の領域にわたる11の下流予測タスクからなるベンチマークデータセットを構築する。実験の結果、4つの入力モダリティと128次元のコンパクトな表現空間を持つMobCLIPは、最先端モデルよりも平均35%有意に優れた汎用予測性能を達成することが示された。人間中心のモダリティを効果的に統合したおかげで、エネルギー消費量予測(+260%)、オフライン小売消費量予測(+98%)、犯罪事件予測(+95%)など、人間中心のタスクにおいて性能向上が特に顕著である。LLMのスケーリング則に倣って、地理空間表現学習におけるスケーリング動作をさらに実証する。コードと事前学習済みモデルは https://github.com/ylzhouchris/MobCLIP でオープンソース化している。

要約(オリジナル)

Representation learning of geospatial locations remains a core challenge in achieving general geospatial intelligence. Current embedding methods often lack versatility, limiting their utility across diverse tasks in both human and natural domains. We present MobCLIP, the first nationwide general-purpose location encoder, integrating an unprecedented diversity of data modalities through effective and scalable multimodal fusion. Adopting a novel CLIP-based architecture, our framework aligns 100M+ POIs, nationwide remote sensing imagery, and structured demographic statistics with a billion-edge mobility graph. By tokenizing spatial locations into grid cells inspired by Vision Transformers, we establish a unified representation space bridging mobility patterns and multimodal features. To rigorously evaluate the general-purpose effectiveness of MobCLIP, we construct a benchmark dataset composed of 11 downstream prediction tasks across social, economic, and natural domains. Experiments show that MobCLIP, with four input modalities and a compact 128-dimensional representation space, achieves significantly superior general-purpose predictive performances than state-of-the-art models by an average of 35%. Thanks to the effective integration of human-centric modalities, the performance gain is particularly profound in human-centric tasks, such as energy consumption (+260%), offline retail consumption amount (+98%), and crime cases (+95%) predictions. Echoing LLM scaling laws, we further demonstrate the scaling behavior in geospatial representation learning. We open-source code and pretrained models at: https://github.com/ylzhouchris/MobCLIP.

arxiv情報

著者 Ya Wen,Jixuan Cai,Qiyao Ma,Linyan Li,Xinhua Chen,Chris Webster,Yulun Zhou
発行日 2025-06-04 02:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI パーマリンク