Multimodal contrastive learning for remote sensing tasks

要約

自己教師付き手法は、リモートセンシングや医療画像への応用など、コンピュータビジョンの分野で多大な成功を収めている。SimCLR、MoCo、MoCo-v2のような最も一般的な対比損失ベースの手法は、画像に工夫された補強を適用することによって同じ画像の複数のビューを使用して、正のペアを作成し、負の例とそれらを対比させるものである。これらの技術はうまく機能しますが、これらの技術のほとんどはImageNet(および類似のコンピュータビジョンデータセット)上でチューニングされています。ポジティブなサンプルにおいて、より豊富な変形のセットを捉える試みがなされてきたが、本研究では、対比学習の枠組みの中で、リモートセンシングデータのポジティブな例を生成するための有望な代替手段を探索する。同じ場所と近くのタイムスタンプで異なるセンサーから撮影された画像は、同じシーンの強拡張インスタンスと考えることができるため、手作業で作られた強拡張のセットを探索し調整する必要性を排除することが可能である。この論文では、Sentinel-1とSentinel-2の画像ペアの大規模なラベル無しデータセット(〜1M)で事前に訓練された、シンプルなデュアルエンコーダフレームワークを提案する。本論文では、2つのリモートセンシングタスク(洪水セグメンテーションと土地被覆マッピング)において埋め込みをテストし、本手法で学習した埋め込みが、積極的なデータ補強により正例を収集する従来手法を上回ることを経験的に示している。

要約(オリジナル)

Self-supervised methods have shown tremendous success in the field of computer vision, including applications in remote sensing and medical imaging. Most popular contrastive-loss based methods like SimCLR, MoCo, MoCo-v2 use multiple views of the same image by applying contrived augmentations on the image to create positive pairs and contrast them with negative examples. Although these techniques work well, most of these techniques have been tuned on ImageNet (and similar computer vision datasets). While there have been some attempts to capture a richer set of deformations in the positive samples, in this work, we explore a promising alternative to generating positive examples for remote sensing data within the contrastive learning framework. Images captured from different sensors at the same location and nearby timestamps can be thought of as strongly augmented instances of the same scene, thus removing the need to explore and tune a set of hand crafted strong augmentations. In this paper, we propose a simple dual-encoder framework, which is pre-trained on a large unlabeled dataset (~1M) of Sentinel-1 and Sentinel-2 image pairs. We test the embeddings on two remote sensing downstream tasks: flood segmentation and land cover mapping, and empirically show that embeddings learnt from this technique outperform the conventional technique of collecting positive examples via aggressive data augmentations.

arxiv情報

著者 Umangi Jain,Alex Wilson,Varun Gulshan
発行日 2022-09-06 09:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク