AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping

要約

正確な作物マッピングは、個々のフィールドテクスチャから景観レベルのコンテキストに至るまでの空間スケールの範囲であり、時間スケールが短期の生物季節学的遷移と完全な成長シーズンダイナミクスの両方をキャプチャする多面的な時空パターンのモデリングに基本的に依存しています。
トランスベースのリモートセンシング基礎モデル(RSFMS)は、統一された時空処理のための生来の能力により、作物マッピングの有望な可能性を提供します。
ただし、現在のRSFMは、作物マッピングの最適ではありません。作物システムのマルチスケールの性質を無視する固定された空間的窓を使用するか、空間パターンのみに焦点を当てることにより一時的な情報を完全に無視します。
これらのギャップを橋渡しするために、農業作物マッピング専用に設計されたマルチソースリモートセンシングファンデーションモデルであるAgrifmを紹介します。
私たちのアプローチは、同時に階層的空間的特徴抽出の必要性を確立することから始まり、時間のダウンサンプリングが空間スケーリング操作と同期される修正ビデオのSWINトランスアーキテクチャの開発につながります。
この変更されたバックボーンにより、長い系列衛星入力の効率的な統一処理が可能になります。
Agrifmは、Modis、Landsat-8/9、Sentinel-2を含む3つの衛星ソースから一時的に豊富なデータストリームを活用し、土地被覆製品が監督する2,500万枚以上の画像サンプルを含むグローバルな代表的なデータセットで事前に訓練されています。
結果のフレームワークには、これらの学習された時空表現を動的に融合し、多様な下流タスクをサポートする汎用性の高いデコーダーアーキテクチャが組み込まれています。
包括的な評価は、すべての下流タスクにわたる従来の深い学習アプローチと最先端の汎用RSFMよりもAgrifmの優れたパフォーマンスを示しています。
コードはhttps://github.com/flyakon/agrifmで入手できます。

要約(オリジナル)

Accurate crop mapping fundamentally relies on modeling multi-scale spatiotemporal patterns, where spatial scales range from individual field textures to landscape-level context, and temporal scales capture both short-term phenological transitions and full growing-season dynamics. Transformer-based remote sensing foundation models (RSFMs) offer promising potential for crop mapping due to their innate ability for unified spatiotemporal processing. However, current RSFMs remain suboptimal for crop mapping: they either employ fixed spatiotemporal windows that ignore the multi-scale nature of crop systems or completely disregard temporal information by focusing solely on spatial patterns. To bridge these gaps, we present AgriFM, a multi-source remote sensing foundation model specifically designed for agricultural crop mapping. Our approach begins by establishing the necessity of simultaneous hierarchical spatiotemporal feature extraction, leading to the development of a modified Video Swin Transformer architecture where temporal down-sampling is synchronized with spatial scaling operations. This modified backbone enables efficient unified processing of long time-series satellite inputs. AgriFM leverages temporally rich data streams from three satellite sources including MODIS, Landsat-8/9 and Sentinel-2, and is pre-trained on a global representative dataset comprising over 25 million image samples supervised by land cover products. The resulting framework incorporates a versatile decoder architecture that dynamically fuses these learned spatiotemporal representations, supporting diverse downstream tasks. Comprehensive evaluations demonstrate AgriFM’s superior performance over conventional deep learning approaches and state-of-the-art general-purpose RSFMs across all downstream tasks. Codes will be available at https://github.com/flyakon/AgriFM.

arxiv情報

著者 Wenyuan Li,Shunlin Liang,Keyan Chen,Yongzhe Chen,Han Ma,Jianglei Xu,Yichuan Ma,Shikang Guan,Husheng Fang,Zhenwei Shi
発行日 2025-05-28 09:24:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク