Uncertainty and Generalizability in Foundation Models for Earth Observation

要約

私たちは、限られたラベリング予算で特定の対象地域 (AOI) に関する下流タスク (植生被覆率の推定など) を設計したいという観点を採用しています。
既存の基盤モデル (FM) を活用することで、AOI に一般化されることを期待してラベルが豊富な別の AOI で下流モデルをトレーニングするか、トレーニングと検証のために AOI 内のラベルを分割するかを決定する必要があります。
いずれの場合も、どの FM を使用するか、ラベル付けのために AOI をサンプリングする方法などに関する選択に直面し、これがパフォーマンスと結果の不確実性の両方に影響します。
この作業では、Sentinel 1 または Sentinel 2 上の 8 つの既存の FM を入力データとして使用し、ESA World Cover 製品のクラスを 11 の AOI にわたるダウンストリーム タスクとして使用して、大規模なアブレーション スタディを実行します。
サンプリングとトレーニングを繰り返し、その結果、約 500,000 個の単純な線形回帰モデルが除去されました。
私たちの結果は、AOI 全体の空間一般化可能性の限界と、さまざまなチップ レベルの予測タスクで予測とターゲットの間で 0.9 を超える相関係数を取得できる FM の能力の両方を示しています。
それでも、パフォーマンスと不確実性は、AOI、タスク、FM ごとに大きく異なります。
私たちは、これが実際の重要な問題であると考えています。なぜなら、各 FM および下流タスク (入力モダリティ、サンプリング、アーキテクチャ、事前トレーニングなど) の背後には多くの設計上の決定があり、通常、下流タスクの設計者はいくつかのことを認識しており、決定できるからです。
彼らのうち。
この研究を通じて、私たちは、新しい FM を公開するときと、それらを使用する下流タスクを設計するときに情報に基づいた意思決定を行うときの両方で、ここで説明した方法論 (参照グローバル ラベルと単純なプローブでの大規模なアブレーション) の使用を提唱します。

要約(オリジナル)

We take the perspective in which we want to design a downstream task (such as estimating vegetation coverage) on a certain area of interest (AOI) with a limited labeling budget. By leveraging an existing Foundation Model (FM) we must decide whether we train a downstream model on a different but label-rich AOI hoping it generalizes to our AOI, or we split labels in our AOI for training and validating. In either case, we face choices concerning what FM to use, how to sample our AOI for labeling, etc. which affect both the performance and uncertainty of the results. In this work, we perform a large ablative study using eight existing FMs on either Sentinel 1 or Sentinel 2 as input data, and the classes from the ESA World Cover product as downstream tasks across eleven AOIs. We do repeated sampling and training, resulting in an ablation of some 500K simple linear regression models. Our results show both the limits of spatial generalizability across AOIs and the power of FMs where we are able to get over 0.9 correlation coefficient between predictions and targets on different chip level predictive tasks. And still, performance and uncertainty vary greatly across AOIs, tasks and FMs. We believe this is a key issue in practice, because there are many design decisions behind each FM and downstream task (input modalities, sampling, architectures, pretraining, etc.) and usually a downstream task designer is aware of and can decide upon a few of them. Through this work, we advocate for the usage of the methodology herein described (large ablations on reference global labels and simple probes), both when publishing new FMs, and to make informed decisions when designing downstream tasks to use them.

arxiv情報

著者 Raul Ramos-Pollan,Freddie Kalaitzis,Karthick Panner Selvam
発行日 2024-09-13 11:52:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.4.9 パーマリンク