Exploring DINO: Emergent Properties and Limitations for Synthetic Aperture Radar Imagery

要約

自己教師あり学習 (SSL) モデルは最近、画像セグメンテーションを含むさまざまなタスクにわたって顕著なパフォーマンスを実証しました。
この研究では、ラベルなし自己蒸留 (DINO) アルゴリズムの新たな特徴と、その合成開口レーダー (SAR) 画像への応用を詳しく掘り下げます。
ラベルなしの SAR データを使用してビジョン トランスフォーマー (ViT) ベースの DINO モデルを事前トレーニングし、後でモデルを微調整して高解像度の土地被覆地図を予測します。
ViT バックボーンによって生成されたアテンション マップの有用性を厳密に評価し、モデルのトークン埋め込み空間と比較します。
最初からトレーニングした場合と比較して、事前トレーニングによってモデルのパフォーマンスがわずかに向上していることを観察し、リモート センシングと土地被覆セグメンテーションにおける SSL の限界と機会について説明します。
わずかなパフォーマンスの向上を超えて、ViT アテンション マップがリモート センシングにとって大きな本質的な価値を保持し、他のアルゴリズムに有用な入力を提供できる可能性があることを示します。
これにより、私たちの研究は、地球観測用のより大規模で優れた SSL モデルの基礎を築きます。

要約(オリジナル)

Self-supervised learning (SSL) models have recently demonstrated remarkable performance across various tasks, including image segmentation. This study delves into the emergent characteristics of the Self-Distillation with No Labels (DINO) algorithm and its application to Synthetic Aperture Radar (SAR) imagery. We pre-train a vision transformer (ViT)-based DINO model using unlabeled SAR data, and later fine-tune the model to predict high-resolution land cover maps. We rigorously evaluate the utility of attention maps generated by the ViT backbone, and compare them with the model’s token embedding space. We observe a small improvement in model performance with pre-training compared to training from scratch, and discuss the limitations and opportunities of SSL for remote sensing and land cover segmentation. Beyond small performance increases, we show that ViT attention maps hold great intrinsic value for remote sensing, and could provide useful inputs to other algorithms. With this, our work lays the ground-work for bigger and better SSL models for Earth Observation.

arxiv情報

著者 Joseph A. Gallego-Mejia,Anna Jungbluth,Laura Martínez-Ferrer,Matt Allen,Francisco Dorr,Freddie Kalaitzis,Raúl Ramos-Pollán
発行日 2023-10-05 12:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.8 パーマリンク