Exploring Masked Autoencoders for Sensor-Agnostic Image Retrieval in Remote Sensing

要約

マスクされたオートエンコーダ (MAE) による自己教師あり学習は、リモート センシング (RS) 画像表現学習において最近大きな注目を集めており、成長を続ける RS 画像アーカイブからのコンテンツベースの画像検索 (CBIR) にとって大きな可能性を具体化しています。
ただし、RS の MAE に関する既存の研究は、考慮されている RS 画像が単一のイメージ センサーによって取得されることを前提としており、したがってユニモーダル CBIR 問題にのみ適しています。
異なる画像モダリティ間で意味的に類似した画像を検索することを目的としたクロスセンサー CBIR に対する MAE の有効性はまだ調査されていません。
この論文では、RS におけるセンサーに依存しない CBIR に対する MAE の有効性を調査するための最初のステップを踏みます。
この目的を達成するために、マルチセンサー RS 画像アーカイブ (クロスセンサー マスク オートエンコーダー [CSMAE] と呼ばれる) でマスク画像モデリングを活用するためのバニラ MAE の適応の可能性について体系的な概要を示します。
バニラ MAE に適用されたさまざまな調整に基づいて、さまざまな CSMAE モデルを紹介します。
これらの CSMAE モデルの広範な実験分析も提供します。
最終的に、RS におけるユニモーダルおよびクロスモーダル CBIR 問題に対してマスクされた画像モデリングを活用するためのガイドラインを導き出します。
この作品のコードは https://github.com/jakhac/CSMAE で公開されています。

要約(オリジナル)

Self-supervised learning through masked autoencoders (MAEs) has recently attracted great attention for remote sensing (RS) image representation learning, and thus embodies a significant potential for content-based image retrieval (CBIR) from ever-growing RS image archives. However, the existing studies on MAEs in RS assume that the considered RS images are acquired by a single image sensor, and thus are only suitable for uni-modal CBIR problems. The effectiveness of MAEs for cross-sensor CBIR, which aims to search semantically similar images across different image modalities, has not been explored yet. In this paper, we take the first step to explore the effectiveness of MAEs for sensor-agnostic CBIR in RS. To this end, we present a systematic overview on the possible adaptations of the vanilla MAE to exploit masked image modeling on multi-sensor RS image archives (denoted as cross-sensor masked autoencoders [CSMAEs]). Based on different adjustments applied to the vanilla MAE, we introduce different CSMAE models. We also provide an extensive experimental analysis of these CSMAE models. We finally derive a guideline to exploit masked image modeling for uni-modal and cross-modal CBIR problems in RS. The code of this work is publicly available at https://github.com/jakhac/CSMAE.

arxiv情報

著者 Jakob Hackstein,Gencer Sumbul,Kai Norman Clasen,Begüm Demir
発行日 2024-04-11 14:27:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク