CromSS: Cross-modal pre-training with noisy labels for remote sensing image segmentation

要約

我々は、地理空間アプリケーションのためのマルチモーダルフレームワーク内でセマンティックセグメンテーションモデルを事前学習することにより、特徴学習を強化するための大規模なノイズの多いラベル付けデータの可能性を探る。我々は、クロスモーダル一貫性とノイズ軽減技術によって特徴表現を改善するように設計された弱教師付き事前学習戦略である、新しいクロスモーダルサンプル選択(CromSS)法を提案する。従来のプレトレーニングアプローチとは異なり、CromSSは、意味分割タスクに有益な特徴学習を改善するために、大量のノイズの多い、簡単に手に入るラベルを利用する。我々は、マルチモーダル事前学習アーキテクチャ設計を最適化するために、中間および後期の融合戦略を調査する。また、ラベルノイズの悪影響を軽減するために、クロスモーダルサンプル選択モジュールを導入する。このモジュールは、サンプリングプロセスを導くために、各モダリティ内の推定信頼度マスクを洗練するクロスモーダルもつれ戦略を採用する。さらに、ノイズの多いラベルに対するロバスト性を高めるために、過信を打ち消す空間的・時間的ラベルスムージング技術を導入する。本アプローチを検証するために、我々はマルチモーダルデータセットNoLDO-S12を作成した。NoLDO-S12は、事前学習用にGoogleのDynamic World (DW)データセットから大規模なノイジーラベルサブセットを、転移学習用にGoogle DWとOpenStreetMap (OSM)から高品質なラベルを持つ2つの下流サブセットから構成される。2つの下流タスクと一般公開されているDFC2020データセットを用いた実験結果から、低コストなノイズラベルを効果的に利用することで、セグメンテーションタスクの特徴学習を大幅に強化できることが実証された。全てのデータ、コード、事前学習された重みは公開される。

要約(オリジナル)

We explore the potential of large-scale noisily labeled data to enhance feature learning by pretraining semantic segmentation models within a multi-modal framework for geospatial applications. We propose a novel Cross-modal Sample Selection (CromSS) method, a weakly supervised pretraining strategy designed to improve feature representations through cross-modal consistency and noise mitigation techniques. Unlike conventional pretraining approaches, CromSS exploits massive amounts of noisy and easy-to-come-by labels for improved feature learning beneficial to semantic segmentation tasks. We investigate middle and late fusion strategies to optimize the multi-modal pretraining architecture design. We also introduce a cross-modal sample selection module to mitigate the adverse effects of label noise, which employs a cross-modal entangling strategy to refine the estimated confidence masks within each modality to guide the sampling process. Additionally, we introduce a spatial-temporal label smoothing technique to counteract overconfidence for enhanced robustness against noisy labels. To validate our approach, we assembled the multi-modal dataset, NoLDO-S12, which consists of a large-scale noisy label subset from Google’s Dynamic World (DW) dataset for pretraining and two downstream subsets with high-quality labels from Google DW and OpenStreetMap (OSM) for transfer learning. Experimental results on two downstream tasks and the publicly available DFC2020 dataset demonstrate that when effectively utilized, the low-cost noisy labels can significantly enhance feature learning for segmentation tasks. All data, code, and pretrained weights will be made publicly available.

arxiv情報

著者 Chenying Liu,Conrad Albrecht,Yi Wang,Xiao Xiang Zhu
発行日 2025-03-03 07:38:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク