CMID: A Unified Self-Supervised Learning Framework for Remote Sensing Image Understanding

要約

タイトル:遠隔センシング画像理解のための統合的自己教示学習フレームワークであるCMID

要約:
– 自己教示学習(SSL)は、人間による注釈付けのないラベルを使用せずに、タスクに関係なく表現を学習する能力により、遠隔センシング(RS)および地球観測(EO)コミュニティで広く注目されています。
– しかし、既存のほとんどのRS SSL方法は、グローバルな意味的分離またはローカルな空間的知覚表現のいずれかの学習に限定されています。
– 本研究では、異なるRS下流タスクに必要な表現がしばしば多様で複雑であるため、この学習戦略はRSの領域では最適ではないと考えています。
– 本研究では、RS画像表現学習により適した統合SSLフレームワークを提案しています。
– 提案されたSSLフレームワーク、Contrastive Mask Image Distillation(CMID)は、コントラスティブ学習(CL)とマスク付き画像モデリング(MIM)を自己蒸留の方法で組み合わせることにより、グローバルな意味的分離性とローカルな空間的知覚性を持つ表現を学習することができます。
– さらに、CMID学習フレームワークはアーキテクチャに依存しないため、畳み込みニューラルネットワーク(CNN)およびビジョントランスフォーマー(ViT)の両方と互換性があり、CMIDをRS理解のためのさまざまなDLアプリケーションに簡単に適応させることができます。
– 4つの下流タスク(場景分類、意味的セグメンテーション、物体検出、変化検出)で包括的な実験が行われ、その結果、CMIDで事前学習されたモデルが、他の最先端のSSL方法に比べて、複数の下流タスクでより良い性能を発揮することが示されました。
– コードと事前学習済みモデルは、https://github.com/NJU-LHRS/official-CMIDで利用可能であり、SSL研究を促進し、RS画像のDLアプリケーションの開発を加速するために提供されます。

要約(オリジナル)

Self-supervised learning (SSL) has gained widespread attention in the remote sensing (RS) and earth observation (EO) communities owing to its ability to learn task-agnostic representations without human-annotated labels. Nevertheless, most existing RS SSL methods are limited to learning either global semantic separable or local spatial perceptible representations. We argue that this learning strategy is suboptimal in the realm of RS, since the required representations for different RS downstream tasks are often varied and complex. In this study, we proposed a unified SSL framework that is better suited for RS images representation learning. The proposed SSL framework, Contrastive Mask Image Distillation (CMID), is capable of learning representations with both global semantic separability and local spatial perceptibility by combining contrastive learning (CL) with masked image modeling (MIM) in a self-distillation way. Furthermore, our CMID learning framework is architecture-agnostic, which is compatible with both convolutional neural networks (CNN) and vision transformers (ViT), allowing CMID to be easily adapted to a variety of deep learning (DL) applications for RS understanding. Comprehensive experiments have been carried out on four downstream tasks (i.e. scene classification, semantic segmentation, object-detection, and change detection) and the results show that models pre-trained using CMID achieve better performance than other state-of-the-art SSL methods on multiple downstream tasks. The code and pre-trained models will be made available at https://github.com/NJU-LHRS/official-CMID to facilitate SSL research and speed up the development of RS images DL applications.

arxiv情報

著者 Dilxat Muhtar,Xueliang Zhang,Pengfeng Xiao,Zhenshi Li,Feng Gu
発行日 2023-04-19 13:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク