General Geospatial Inference with a Population Dynamics Foundation Model

要約

世界中のダイナミックな人々の健康と福祉をサポートするには、政府機関、組織、研究者が、高リスクのグループを特定し、限られたリソースを戦略的に割り当てるために、人間の行動と地域の状況の間の複雑な関係を理解し​​、推論する必要があります。
これらのクラスの問題に対する従来のアプローチでは、多くの場合、人間の行動や自然環境や構築環境を表現するために手動で精選されたタスク固有の機能やモデルを開発する必要があり、新しいタスクや関連するタスクに適応するのが困難な場合があります。
これに対処するために、多様なデータ モダリティ間の関係を把握することを目的とし、幅広い地理空間タスクに適用できる人口動態基盤モデル (PDFM) を導入します。
まず、米国全土の郵便番号と郡の地理インデックス付きデータセットを構築し、地図からの人間の行動、忙しさ、集計された検索傾向、天候や大気質などの環境要因に関する豊富な集計情報を収集します。
次に、グラフ ニューラル ネットワークを使用してこのデータと場所間の複雑な関係をモデル化し、比較的単純なモデルを使用して幅広い下流タスクに適応できるエンベディングを生成します。
私たちは、健康指標、社会経済的要因、環境測定という 3 つの異なる領域にわたる 27 の下流タスクでベンチマークを行うことにより、アプローチの有効性を評価します。
このアプローチは、27 の地理空間内挿タスクすべて、および 27 の外挿タスクおよび超解像度タスクのうち 25 タスクで最先端のパフォーマンスを実現します。
PDFM と最先端の予測基盤モデル TimesFM を組み合わせて失業と貧困を予測し、完全に監視された予測を超えるパフォーマンスを達成しました。
埋め込みの完全なセットとサンプル コードは研究者向けに公開されています。

要約(オリジナル)

Supporting the health and well-being of dynamic populations around the world requires governmental agencies, organizations and researchers to understand and reason over complex relationships between human behavior and local contexts in order to identify high-risk groups and strategically allocate limited resources. Traditional approaches to these classes of problems often entail developing manually curated, task-specific features and models to represent human behavior and the natural and built environment, which can be challenging to adapt to new, or even, related tasks. To address this, we introduce a Population Dynamics Foundation Model (PDFM) that aims to capture the relationships between diverse data modalities and is applicable to a broad range of geospatial tasks. We first construct a geo-indexed dataset for postal codes and counties across the United States, capturing rich aggregated information on human behavior from maps, busyness, and aggregated search trends, and environmental factors such as weather and air quality. We then model this data and the complex relationships between locations using a graph neural network, producing embeddings that can be adapted to a wide range of downstream tasks using relatively simple models. We evaluate the effectiveness of our approach by benchmarking it on 27 downstream tasks spanning three distinct domains: health indicators, socioeconomic factors, and environmental measurements. The approach achieves state-of-the-art performance on all 27 geospatial interpolation tasks, and on 25 out of the 27 extrapolation and super-resolution tasks. We combined the PDFM with a state-of-the-art forecasting foundation model, TimesFM, to predict unemployment and poverty, achieving performance that surpasses fully supervised forecasting. The full set of embeddings and sample code are publicly available for researchers.

arxiv情報

著者 Mohit Agarwal,Mimi Sun,Chaitanya Kamath,Arbaaz Muslim,Prithul Sarker,Joydeep Paul,Hector Yee,Marcin Sieniek,Kim Jablonski,Yael Mayer,David Fork,Sheila de Guia,Jamie McPike,Adam Boulanger,Tomer Shekel,David Schottlander,Yao Xiao,Manjit Chakravarthy Manukonda,Yun Liu,Neslihan Bulut,Sami Abu-el-haija,Arno Eigenwillig,Parth Kothari,Bryan Perozzi,Monica Bharel,Von Nguyen,Luke Barrington,Niv Efron,Yossi Matias,Greg Corrado,Krish Eswaran,Shruthi Prabhakara,Shravya Shetty,Gautam Prasad
発行日 2024-11-11 18:32:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG パーマリンク