Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery

要約

最近の教師なし学習の進歩により、大量のラベルなしデータを事前トレーニングすることで、大規模ビジョン モデルが下流のタスクで有望な結果を達成できることが実証されました。
このような事前トレーニング技術は、ラベルのない大量のデータが利用できるため、最近リモート センシングの分野でも研究されています。
標準的な自然画像データセットとは異なり、リモート センシング データはさまざまなセンサー技術から取得され、多様なスケールのバリエーションとモダリティを示します。
既存の衛星画像の事前トレーニング方法は、リモート センシング画像に存在するスケール情報を無視するか、単一タイプのデータ モダリティのみを使用するように制限します。
このペーパーでは、変圧器の事前トレーニングを再検討し、複数のモダリティで効果的に利用されるマルチスケール情報を活用します。
SatMAE++ と呼ばれる私たちが提案するアプローチは、マルチスケールの事前トレーニングを実行し、畳み込みベースのアップサンプリング ブロックを利用してより高いスケールで画像を再構築し、より多くのスケールを含めるように拡張可能にします。
既存の研究と比較して、マルチスケール事前トレーニングを備えた提案された SatMAE++ は、光学画像とマルチスペクトル画像の両方に対して同様に効果的です。
6 つのデータセットに対する広範な実験により、提案された貢献の利点が明らかになり、すべてのデータセットで最先端のパフォーマンスが実現します。
SatMAE++ は、BigEarthNet データセットのマルチラベル分類タスクで 2.5\% の平均平均精度 (mAP) ゲインを達成します。
私たちのコードと事前トレーニングされたモデルは \url{https://github.com/techmn/satmae_pp} で入手できます。

要約(オリジナル)

Recent advances in unsupervised learning have demonstrated the ability of large vision models to achieve promising results on downstream tasks by pre-training on large amount of unlabelled data. Such pre-training techniques have also been explored recently in the remote sensing domain due to the availability of large amount of unlabelled data. Different from standard natural image datasets, remote sensing data is acquired from various sensor technologies and exhibit diverse range of scale variations as well as modalities. Existing satellite image pre-training methods either ignore the scale information present in the remote sensing imagery or restrict themselves to use only a single type of data modality. In this paper, we re-visit transformers pre-training and leverage multi-scale information that is effectively utilized with multiple modalities. Our proposed approach, named SatMAE++, performs multi-scale pre-training and utilizes convolution based upsampling blocks to reconstruct the image at higher scales making it extensible to include more scales. Compared to existing works, the proposed SatMAE++ with multi-scale pre-training is equally effective for both optical as well as multi-spectral imagery. Extensive experiments on six datasets reveal the merits of proposed contributions, leading to state-of-the-art performance on all datasets. SatMAE++ achieves mean average precision (mAP) gain of 2.5\% for multi-label classification task on BigEarthNet dataset. Our code and pre-trained models are available at \url{https://github.com/techmn/satmae_pp}.

arxiv情報

著者 Mubashir Noman,Muzammal Naseer,Hisham Cholakkal,Rao Muhammad Anwar,Salman Khan,Fahad Shahbaz Khan
発行日 2024-03-08 16:18:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク