CromSS: Cross-modal pre-training with noisy labels for remote sensing image segmentation

要約

私たちは、地理空間アプリケーションのマルチモーダル学習フレームワークでセマンティック セグメンテーション モデルを事前トレーニングするためのノイズの多いラベル y の可能性を研究します。
具体的には、特定の地理空間シーンの複数のセンサー/モダリティ d によってモデル化されたピクセル x およびクラス c にわたるクラス分布 P^{(d)}(x,c) を利用する、新しいクロスモーダル サンプル選択方法 (CromSS) を提案します。

センサー $d$ にわたる予測の一貫性は、P^{(d)}(x,c) のエントロピーによって共同で通知されます。
ノイズのあるラベルのサンプリングは、ノイズのあるクラス ラベル P^{(d)}(x,c=y(x)) の各センサー d の信頼度によって決定されます。
私たちのアプローチのパフォーマンスを検証するために、グローバルにサンプリングされた SSL4EO-S12 データセットからの Sentinel-1 (レーダー) および Sentinel-2 (光学) 衛星画像を使用した実験を実施します。
これらのシーンを、事前トレーニングのために Google Dynamic World プロジェクトから取得した 9 クラスのノイズのあるラベルと組み合わせます。
DFC2020 データセットの転移学習評価 (ダウンストリーム タスク) により、リモート センシング画像セグメンテーションに対する提案手法の有効性が確認されます。

要約(オリジナル)

We study the potential of noisy labels y to pretrain semantic segmentation models in a multi-modal learning framework for geospatial applications. Specifically, we propose a novel Cross-modal Sample Selection method (CromSS) that utilizes the class distributions P^{(d)}(x,c) over pixels x and classes c modelled by multiple sensors/modalities d of a given geospatial scene. Consistency of predictions across sensors $d$ is jointly informed by the entropy of P^{(d)}(x,c). Noisy label sampling we determine by the confidence of each sensor d in the noisy class label, P^{(d)}(x,c=y(x)). To verify the performance of our approach, we conduct experiments with Sentinel-1 (radar) and Sentinel-2 (optical) satellite imagery from the globally-sampled SSL4EO-S12 dataset. We pair those scenes with 9-class noisy labels sourced from the Google Dynamic World project for pretraining. Transfer learning evaluations (downstream task) on the DFC2020 dataset confirm the effectiveness of the proposed method for remote sensing image segmentation.

arxiv情報

著者 Chenying Liu,Conrad Albrecht,Yi Wang,Xiao Xiang Zhu
発行日 2024-05-02 11:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク