Joint multi-modal Self-Supervised pre-training in Remote Sensing: Application to Methane Source Classification

要約

現在、コンピューター ビジョンやリモート センシングの特定のタスクを解決するためのディープ ラーニング手法が広く普及しているため、ラベル付きデータの必要性は常に高まっています。
ただし、多くの場合、信頼性の高い注釈を実行するために必要な専門知識によっては、注釈プロセスは長くて退屈になる可能性があります。
この注釈の必要性を軽減するために、最近、文献でいくつかの自己教師ありの方法が提案されています。
これらの方法の背後にある中心原理は、ラベルのないデータ サンプルのみを使用して画像エンコーダーを学習することです。
地球観測では、これらの方法を改善するために、ドメイン固有のリモート センシング画像データを活用する機会があります。
具体的には、各画像に関連付けられた地理的位置を活用することで、複数のセンサーから取得した場所を相互参照することができ、同じ場所の複数のビューを得ることができます。
この論文では、いわゆるジョイントエンベディング法の背後にある中心原理を簡単にレビューし、自己教師あり事前トレーニングにおける複数のリモートセンシングモダリティの使用法を調査します。
メタン発生源分類のタスクにおいて、結果として得られるエンコーダーの最終パフォーマンスを評価します。

要約(オリジナル)

With the current ubiquity of deep learning methods to solve computer vision and remote sensing specific tasks, the need for labelled data is growing constantly. However, in many cases, the annotation process can be long and tedious depending on the expertise needed to perform reliable annotations. In order to alleviate this need for annotations, several self-supervised methods have recently been proposed in the literature. The core principle behind these methods is to learn an image encoder using solely unlabelled data samples. In earth observation, there are opportunities to exploit domain-specific remote sensing image data in order to improve these methods. Specifically, by leveraging the geographical position associated with each image, it is possible to cross reference a location captured from multiple sensors, leading to multiple views of the same locations. In this paper, we briefly review the core principles behind so-called joint-embeddings methods and investigate the usage of multiple remote sensing modalities in self-supervised pre-training. We evaluate the final performance of the resulting encoders on the task of methane source classification.

arxiv情報

著者 Paul Berg,Minh-Tan Pham,Nicolas Courty
発行日 2023-06-16 14:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク