SwiMDiff: Scene-wide Matching Contrastive Learning with Diffusion Constraint for Remote Sensing Image

要約

最近の航空宇宙技術の進歩により、ラベルのないリモート センシング画像 (RSI) データの量が劇的に増加しました。
リモート センシングの分野では、自己教師あり学習 (SSL) を通じてこのデータを効果的に活用することが不可欠です。
しかし、現在の手法、特に主要な SSL 手法である対照学習 (CL) は、この分野で特有の課題に直面しています。
まず、CL は多くの場合、同様の意味内容を持つ地理的に隣接するサンプルを誤ってネガティブ ペアとして識別し、モデルのトレーニング中に混乱を引き起こします。
第二に、インスタンスレベルの識別タスクとして、非構造化 RSI に固有の本質的なきめの細かい特徴と複雑な詳細が無視される傾向があります。
これらの障害を克服するために、RSI 用に設計された新しい自己監視型事前トレーニング フレームワークである SwiMDiff を紹介します。
SwiMDiff は、同じシーンからのデータを偽陰性として認識するためにラベルを効果的に再調整するシーン全体のマッチング アプローチを採用しています。
この調整により、CL はリモート センシングの微妙なニュアンスにより適したものになります。
さらに、SwiMDiff は CL を拡散モデルとシームレスに統合します。
ピクセルレベルの拡散制約の実装により、グローバルな意味情報と画像の詳細な特徴の両方をより包括的にキャプチャするエンコーダーの能力が強化されます。
私たちが提案するフレームワークは、リモート センシングの下流タスクに利用できる情報を大幅に充実させます。
SwiMDiff は、変化検出および土地被覆分類タスクにおいて優れたパフォーマンスを示し、リモート センシングの分野におけるその実質的な有用性と価値を証明しています。

要約(オリジナル)

With recent advancements in aerospace technology, the volume of unlabeled remote sensing image (RSI) data has increased dramatically. Effectively leveraging this data through self-supervised learning (SSL) is vital in the field of remote sensing. However, current methodologies, particularly contrastive learning (CL), a leading SSL method, encounter specific challenges in this domain. Firstly, CL often mistakenly identifies geographically adjacent samples with similar semantic content as negative pairs, leading to confusion during model training. Secondly, as an instance-level discriminative task, it tends to neglect the essential fine-grained features and complex details inherent in unstructured RSIs. To overcome these obstacles, we introduce SwiMDiff, a novel self-supervised pre-training framework designed for RSIs. SwiMDiff employs a scene-wide matching approach that effectively recalibrates labels to recognize data from the same scene as false negatives. This adjustment makes CL more applicable to the nuances of remote sensing. Additionally, SwiMDiff seamlessly integrates CL with a diffusion model. Through the implementation of pixel-level diffusion constraints, we enhance the encoder’s ability to capture both the global semantic information and the fine-grained features of the images more comprehensively. Our proposed framework significantly enriches the information available for downstream tasks in remote sensing. Demonstrating exceptional performance in change detection and land-cover classification tasks, SwiMDiff proves its substantial utility and value in the field of remote sensing.

arxiv情報

著者 Jiayuan Tian,Jie Lei,Jiaqing Zhang,Weiying Xie,Yunsong Li
発行日 2024-01-10 11:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク