Generic Knowledge Boosted Pre-training For Remote Sensing Images


深層学習モデルは、シーン分類、変化検出、土地被覆セグメンテーション、その他のリモート センシング画像理解タスクに不可欠です。
既存のリモート センシング深層学習モデルのほとんどのバックボーンは、通常、ImageNet 事前トレーニング (IMP) から取得された事前トレーニングされた重みによって初期化されます。
ただし、リモート センシング画像と自然画像 (ImageNet など) の間にはドメイン ギャップが存在し、IMP の事前トレーニングされた重みによって初期化されたディープ ラーニング モデルは、リモート センシング画像を理解するのに十分なパフォーマンスを発揮しません。
この論文では、リモート センシング理解タスクのためにリモート センシングと自然画像からロバストな表現を学習するための、新しいリモート センシング事前トレーニング フレームワークである Generic Knowledge Boosted Remote Sensing Pre-training (GeRSP) を提案します。
GeRSP には 2 つの事前トレーニング ブランチが含まれています。 (1) 自己教師ありの事前トレーニング ブランチは、ラベルのないリモート センシング画像からドメイン関連の表現を学習するために採用されています。
(2) ラベル付きの自然画像から一般知識を学習するために、教師付き事前トレーニング ブランチが GeRSP に統合されています。
さらに、GeRSP は、教師と生徒のアーキテクチャを使用して 2 つの事前トレーニング ブランチを組み合わせて、一般知識と特殊知識の表現を同時に学習します。これにより、深層学習モデルの初期化のための強力な事前トレーニング済みモデルが生成されます。
最後に、オブジェクト検出、セマンティック セグメンテーション、シーン分類という 3 つの下流タスクに関して、GeRSP とその他のリモート センシングの事前トレーニング手法を評価します。
広範な実験結果は、GeRSP が統合された方法でロバストな表現を効果的に学習し、リモート センシングの下流タスクのパフォーマンスを向上させることができることを一貫して示しています。


Deep learning models are essential for scene classification, change detection, land cover segmentation, and other remote sensing image understanding tasks. Most backbones of existing remote sensing deep learning models are typically initialized by pre-trained weights obtained from ImageNet pre-training (IMP). However, domain gaps exist between remote sensing images and natural images (e.g., ImageNet), making deep learning models initialized by pre-trained weights of IMP perform poorly for remote sensing image understanding. Although some pre-training methods are studied in the remote sensing community, current remote sensing pre-training methods face the problem of vague generalization by only using remote sensing images. In this paper, we propose a novel remote sensing pre-training framework, Generic Knowledge Boosted Remote Sensing Pre-training (GeRSP), to learn robust representations from remote sensing and natural images for remote sensing understanding tasks. GeRSP contains two pre-training branches: (1) A self-supervised pre-training branch is adopted to learn domain-related representations from unlabeled remote sensing images. (2) A supervised pre-training branch is integrated into GeRSP for general knowledge learning from labeled natural images. Moreover, GeRSP combines two pre-training branches using a teacher-student architecture to simultaneously learn representations with general and special knowledge, which generates a powerful pre-trained model for deep learning model initialization. Finally, we evaluate GeRSP and other remote sensing pre-training methods on three downstream tasks, i.e., object detection, semantic segmentation, and scene classification. The extensive experimental results consistently demonstrate that GeRSP can effectively learn robust representations in a unified manner, improving the performance of remote sensing downstream tasks.


著者 Ziyue Huang,Mingming Zhang,Yuan Gong,Qingjie Liu,Yunhong Wang
発行日 2024-01-09 15:36:07+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.CV パーマリンク