要約
自己監視学習を使用した事前訓練を受けた基礎モデルは、言語理解、テキスト生成、画像認識など、さまざまな下流タスクで強力な転送学習機能を示しています。
地球観測(EO)フィールドは、精密農業、山火事、干ばつ監視、自然災害対応などの用途向けに、マルチスペクトル衛星画像で直接事前に訓練されたいくつかの基礎モデルを生成しました。
ただし、これらのモデルが新しい地理的位置に一般化する能力を調査した研究はほとんどありません。また、地理空間バイアスの潜在的な懸念 – データが豊富な先進国に訓練されたモデルは、データを規模の発展途上国に移すことができません。
5つの大陸の5つの作物分類データセットで、3つの一般的なEO Foundationモデル、SSL4EO-S12、Satlaspretrain、およびImagenetを評価します。
結果は、SSL4EO-S12などのセンチネル-2向けに明示的に設計された事前に訓練された重量が、Imagenetのような一般的な訓練を受けた重みを上回ることを示しています。
クラスの不均衡を緩和し、平均精度を向上させるには、高い全体的な精度を達成するのに十分なラベル付き画像のみで十分ですが、900の画像が必要です。
要約(オリジナル)
Foundation models pre-trained using self-supervised learning have shown powerful transfer learning capabilities on various downstream tasks, including language understanding, text generation, and image recognition. The Earth observation (EO) field has produced several foundation models pre-trained directly on multispectral satellite imagery for applications like precision agriculture, wildfire and drought monitoring, and natural disaster response. However, few studies have investigated the ability of these models to generalize to new geographic locations, and potential concerns of geospatial bias — models trained on data-rich developed nations not transferring well to data-scarce developing nations — remain. We evaluate three popular EO foundation models, SSL4EO-S12, SatlasPretrain, and ImageNet, on five crop classification datasets across five continents. Results show that pre-trained weights designed explicitly for Sentinel-2, such as SSL4EO-S12, outperform general pre-trained weights like ImageNet. While only 100 labeled images are sufficient for achieving high overall accuracy, 900 images are required to mitigate class imbalance and improve average accuracy.
arxiv情報
著者 | Yi-Chia Chang,Adam J. Stewart,Favyen Bastani,Piper Wolters,Shreya Kannan,George R. Huber,Jingtong Wang,Arindam Banerjee |
発行日 | 2025-05-20 17:13:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google