要約
衛星画像の時系列(SITS)は、地球の表面の継続的な観測を提供し、環境管理や災害評価などの用途に不可欠です。
ただし、既存の空間的基礎モデルは、土地オブジェクト間のマルチスケール空間的関係を明示的にキャプチャすることなく、一時的なシーケンス全体をエンコードするプレーンビジョン変圧器に依存しています。
この制限は、ダウンストリームタスクでの有効性を妨げます。
この課題を克服するために、SITS分析に合わせて調整された新しい階層Vision Transformer FoundationモデルであるTimoを提案します。
そのコアでは、時間と空間の両方で進化するマルチスケールパターンを動的にキャプチャする空間的ジャイロスコープの注意メカニズムを導入します。
トレーニング前の場合、100,000の地理的場所から100万の画像の大規模なデータセットであるMillionstをキュレートします。それぞれが5年間で10の時間段階にわたってキャプチャされ、多様な地理空間の変化と季節変動を網羅しています。
このデータセットを活用して、マスクされた画像モデリングをトレイン前のティモに適応させ、一般化可能な空間的表現を効果的に学習してエンコードできるようにします。複数の空間的タスクにわたって拡張された実験 – 森林被覆のセグメンテーション、作物タイプの分類、および洪水検出を妨害する乱れを除く。
コード、モデル、およびデータセットは、https://github.com/mililab/timoでリリースされます。
要約(オリジナル)
Satellite image time series (SITS) provide continuous observations of the Earth’s surface, making them essential for applications such as environmental management and disaster assessment. However, existing spatiotemporal foundation models rely on plain vision transformers, which encode entire temporal sequences without explicitly capturing multiscale spatiotemporal relationships between land objects. This limitation hinders their effectiveness in downstream tasks. To overcome this challenge, we propose TiMo, a novel hierarchical vision transformer foundation model tailored for SITS analysis. At its core, we introduce a spatiotemporal gyroscope attention mechanism that dynamically captures evolving multiscale patterns across both time and space. For pre-training, we curate MillionST, a large-scale dataset of one million images from 100,000 geographic locations, each captured across 10 temporal phases over five years, encompassing diverse geospatial changes and seasonal variations. Leveraging this dataset, we adapt masked image modeling to pre-train TiMo, enabling it to effectively learn and encode generalizable spatiotemporal representations.Extensive experiments across multiple spatiotemporal tasks-including deforestation monitoring, land cover segmentation, crop type classification, and flood detection-demonstrate TiMo’s superiority over state-of-the-art methods. Code, model, and dataset will be released at https://github.com/MiliLab/TiMo.
arxiv情報
著者 | Xiaolei Qin,Di Wang,Jing Zhang,Fengxiang Wang,Xin Su,Bo Du,Liangpei Zhang |
発行日 | 2025-05-13 16:35:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google