In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene Classification

要約

我々は、リモートセンシング画像の解析における、ビジョンモデルの領域内教師あり事前学習の有用性を調査する。自己教師あり学習(SSL)は、大量のラベルなしデータを利用できることから、リモートセンシング画像分類の有望なアプローチとして浮上してきた。従来の教師あり学習とは異なり、SSLは明示的なラベルを必要とせずにデータの表現を学習することを目的としている。これは、与えられた下流タスクでモデルを微調整する前に、モデルの事前学習に使用できる補助タスクを策定することで達成される。SSL事前学習に対する実際の一般的なアプローチは、ImageNetのような標準的な事前学習データセットを利用することである。しかし、このような一般的なアプローチは、特にリモートセンシングのような困難な領域のタスクにおいて、モデルの下流の性能に最適とは言えない影響を与える可能性がある。本稿では、iBOTフレームワークとMillion-AID(大規模かつラベル付けされていないリモートセンシングデータセット)で学習したVision変換器を組み合わせて、SSL事前学習の有効性を分析する。我々は、様々な自己教師付き事前学習戦略の包括的な研究を提示し、様々な特性を持つ14のダウンストリームデータセットでその効果を評価する。その結果、自己教師付き事前学習のために大規模なドメイン内データセットを活用することで、実際に見られる標準的なアプローチと比較して、下流の予測性能が一貫して向上することが実証された。

要約(オリジナル)

We investigate the utility of in-domain self-supervised pre-training of vision models in the analysis of remote sensing imagery. Self-supervised learning (SSL) has emerged as a promising approach for remote sensing image classification due to its ability to exploit large amounts of unlabeled data. Unlike traditional supervised learning, SSL aims to learn representations of data without the need for explicit labels. This is achieved by formulating auxiliary tasks that can be used for pre-training models before fine-tuning them on a given downstream task. A common approach in practice to SSL pre-training is utilizing standard pre-training datasets, such as ImageNet. While relevant, such a general approach can have a sub-optimal influence on the downstream performance of models, especially on tasks from challenging domains such as remote sensing. In this paper, we analyze the effectiveness of SSL pre-training by employing the iBOT framework coupled with Vision transformers trained on Million-AID, a large and unlabeled remote sensing dataset. We present a comprehensive study of different self-supervised pre-training strategies and evaluate their effect across 14 downstream datasets with diverse properties. Our results demonstrate that leveraging large in-domain datasets for self-supervised pre-training consistently leads to improved predictive downstream performance, compared to the standard approaches found in practice.

arxiv情報

著者 Ivica Dimitrovski,Ivan Kitanovski,Nikola Simidjievski,Dragi Kocev
発行日 2024-02-05 14:14:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク