Joint multi-modal Self-Supervised pre-training in Remote Sensing: Application to Methane Source Classification


現在、コンピューター ビジョンやリモート センシングの特定のタスクを解決するためのディープ ラーニング手法が広く普及しているため、ラベル付きデータの必要性は常に高まっています。
これらの方法の背後にある中心原理は、ラベルのないデータ サンプルのみを使用して画像エンコーダーを学習することです。
地球観測では、これらの方法を改善するために、ドメイン固有のリモート センシング画像データを活用する機会があります。


With the current ubiquity of deep learning methods to solve computer vision and remote sensing specific tasks, the need for labelled data is growing constantly. However, in many cases, the annotation process can be long and tedious depending on the expertise needed to perform reliable annotations. In order to alleviate this need for annotations, several self-supervised methods have recently been proposed in the literature. The core principle behind these methods is to learn an image encoder using solely unlabelled data samples. In earth observation, there are opportunities to exploit domain-specific remote sensing image data in order to improve these methods. Specifically, by leveraging the geographical position associated with each image, it is possible to cross reference a location captured from multiple sensors, leading to multiple views of the same locations. In this paper, we briefly review the core principles behind so-called joint-embeddings methods and investigate the usage of multiple remote sensing modalities in self-supervised pre-training. We evaluate the final performance of the resulting encoders on the task of methane source classification.


著者 Paul Berg,Minh-Tan Pham,Nicolas Courty
発行日 2023-06-16 14:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク