Self-Supervised In-Domain Representation Learning for Remote Sensing Image Scene Classification

要約

ImageNetで事前に学習した重みを様々なリモートセンシングのタスクに転送することで、許容できる結果が得られ、ラベル付けされたサンプルの必要性が減少した。しかし、地上画像とリモートセンシング画像との間の領域の違いにより、このような転送学習の性能は限定的である。最近の研究により、自己教師付き学習法は教師付きImageNetの重みよりも識別性と伝達性に優れた視覚的特徴を捉えることが実証されている。我々は、これらの事実から、対照的な自己教師付き学習を用いてリモートセンシング画像の領域内表現を事前に学習し、学習した特徴を他の関連するリモートセンシングデータセットに転送することを目的としている。具体的には、SimSiamアルゴリズムを用いて、リモートセンシングデータセットのドメイン内知識を事前学習し、得られた重みを他のシーン分類データセットに転送した。このようにして、クラス数や空間解像度の異なる5つの土地被覆分類データセットにおいて、最先端の結果を得ることができた。また、異なる属性のデータセットを用いた特徴量事前学習などの適切な実験を行うことで、データセットが領域内特徴量を得るために最も影響力のある要因を特定した。また、リモートセンシングデータセットを用いたSimSiamの事前学習により得られた特徴を、様々な下流タスクに転送し、微調整のための初期重みとして使用した。さらに、クラスごとのサンプル数が制限されている場合において、得られた表現を線形評価した。我々の実験により、自己教師付き事前学習段階でより解像度の高いデータセットを用いることで、より識別性の高い一般的な表現を学習することができることが実証された。

要約(オリジナル)

Transferring the ImageNet pre-trained weights to the various remote sensing tasks has produced acceptable results and reduced the need for labeled samples. However, the domain differences between ground imageries and remote sensing images cause the performance of such transfer learning to be limited. Recent research has demonstrated that self-supervised learning methods capture visual features that are more discriminative and transferable than the supervised ImageNet weights. We are motivated by these facts to pre-train the in-domain representations of remote sensing imagery using contrastive self-supervised learning and transfer the learned features to other related remote sensing datasets. Specifically, we used the SimSiam algorithm to pre-train the in-domain knowledge of remote sensing datasets and then transferred the obtained weights to the other scene classification datasets. Thus, we have obtained state-of-the-art results on five land cover classification datasets with varying numbers of classes and spatial resolutions. In addition, By conducting appropriate experiments, including feature pre-training using datasets with different attributes, we have identified the most influential factors that make a dataset a good choice for obtaining in-domain features. We have transferred the features obtained by pre-training SimSiam on remote sensing datasets to various downstream tasks and used them as initial weights for fine-tuning. Moreover, we have linearly evaluated the obtained representations in cases where the number of samples per class is limited. Our experiments have demonstrated that using a higher-resolution dataset during the self-supervised pre-training stage results in learning more discriminative and general representations.

arxiv情報

著者 Ali Ghanbarzade,Hossein Soleimani
発行日 2023-02-03 15:03:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク