要約
都市のダイナミクスを理解し、予測することは、輸送システムの管理、都市計画の最適化、公共サービスの強化に不可欠です。
ニューラルネットワークベースのアプローチは成功を収めていますが、多くの場合、タスク固有のアーキテクチャと大量のデータに依存しており、多様な都市のシナリオ全体で一般化する能力を制限しています。
一方、大規模な言語モデル(LLMS)は強力な推論と一般化能力を提供しますが、空間的都市のダイナミクスへの適用は依存していないままです。
既存のLLMベースの方法は、多面的な空間的データを効果的に統合するのに苦労し、トレーニングとテストデータの間の分布シフトに対処し、実際のアプリケーションでの予測信頼性を制限します。
このギャップを埋めるために、正確な予測と堅牢な一般化の両方を保証する多面的な都市ダイナミクス予測のための新しい空間的LLMフレームワークであるUrbanmindを提案します。
その中心で、Urbanmindは、多面的な空間的依存関係と多面的な都市ダイナミクス間の相互相関をキャプチャする特殊なマスキング戦略を備えた多面的な融合マスク自動エンコーダーであるMuffin-Maeを導入します。
さらに、空間的に対応するコンテキストの詳細をプロンプトにコードするセマンティックに対応するプロンプトと微調整戦略を設計し、空間的パターン上で推論するLLMSの能力を高めます。
一般化をさらに向上させるために、テストデータ再構築装置を使用したテスト時間適応メカニズムを導入し、LLMで生成された埋め込みを再構築することにより、Urbanmindが目に見えないテストデータに動的に調整できるようにします。
複数の都市の実世界の都市データセットに関する広範な実験は、都市部が一貫して最先端のベースラインを上回り、ゼロショット設定であっても、高精度と堅牢な一般化を達成することを示しています。
要約(オリジナル)
Understanding and predicting urban dynamics is crucial for managing transportation systems, optimizing urban planning, and enhancing public services. While neural network-based approaches have achieved success, they often rely on task-specific architectures and large volumes of data, limiting their ability to generalize across diverse urban scenarios. Meanwhile, Large Language Models (LLMs) offer strong reasoning and generalization capabilities, yet their application to spatial-temporal urban dynamics remains underexplored. Existing LLM-based methods struggle to effectively integrate multifaceted spatial-temporal data and fail to address distributional shifts between training and testing data, limiting their predictive reliability in real-world applications. To bridge this gap, we propose UrbanMind, a novel spatial-temporal LLM framework for multifaceted urban dynamics prediction that ensures both accurate forecasting and robust generalization. At its core, UrbanMind introduces Muffin-MAE, a multifaceted fusion masked autoencoder with specialized masking strategies that capture intricate spatial-temporal dependencies and intercorrelations among multifaceted urban dynamics. Additionally, we design a semantic-aware prompting and fine-tuning strategy that encodes spatial-temporal contextual details into prompts, enhancing LLMs’ ability to reason over spatial-temporal patterns. To further improve generalization, we introduce a test time adaptation mechanism with a test data reconstructor, enabling UrbanMind to dynamically adjust to unseen test data by reconstructing LLM-generated embeddings. Extensive experiments on real-world urban datasets across multiple cities demonstrate that UrbanMind consistently outperforms state-of-the-art baselines, achieving high accuracy and robust generalization, even in zero-shot settings.
arxiv情報
著者 | Yuhang Liu,Yingxue Zhang,Xin Zhang,Ling Tian,Yanhua Li,Jun Luo |
発行日 | 2025-05-21 16:56:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google