CROMA: Remote Sensing Representations with Contrastive Radar-Optical Masked Autoencoders

要約

重要かつ急速に成長しているアプリケーションであるリモート センシングは、膨大でありながらまばらにラベル付けされ、空間的に位置合わせされたマルチモーダル データを提供します。
このため、自己教師あり学習アルゴリズムは非常に貴重なものになります。
私たちは CROMA を紹介します。これは、コントラストと再構築の自己教師あり目標を組み合わせて、豊かな単峰性および多峰性の表現を学習するフレームワークです。
私たちの方法では、マスクアウトされたマルチスペクトル光学レーダー サンプルと合成開口レーダー サンプルを空間と時間で整列させて個別にエンコードし、クロスモーダル対比学習を実行します。
別のエンコーダはこれらのセンサーを融合し、軽量デコーダを介してマスクされたパッチを予測するために使用される共同マルチモーダル エンコーディングを生成します。
空間的に位置合わせされたマルチモーダル データを活用すると、これらの目的が補完的になることを示します。
また、クロス アテンション マトリックスとセルフ アテンション マトリックスに空間的な偏りを与える X-ALiBi と 2D-ALiBi も導入します。
これらの戦略により表現が改善され、テスト時にモデルが最大 17.6 倍の大きさの画像を効果的に外挿できるようになります。
CROMA は、次の 4 つの分類ベンチマーク、つまり微調整 (平均 1.8%)、線形 (平均 2.4%)、非線形 (平均 1.4%) のプロービング、kNN 分類 (平均 3.5%)、
K 平均クラスタリング (平均 8.4%)。
および 3 つのセグメンテーション ベンチマーク (平均 6.4%)。
CROMA の豊富な、オプションでマルチモーダルな表現は、リモート センシング アプリケーション全体で幅広く活用できます。

要約(オリジナル)

A vital and rapidly growing application, remote sensing offers vast yet sparsely labeled, spatially aligned multimodal data; this makes self-supervised learning algorithms invaluable. We present CROMA: a framework that combines contrastive and reconstruction self-supervised objectives to learn rich unimodal and multimodal representations. Our method separately encodes masked-out multispectral optical and synthetic aperture radar samples — aligned in space and time — and performs cross-modal contrastive learning. Another encoder fuses these sensors, producing joint multimodal encodings that are used to predict the masked patches via a lightweight decoder. We show that these objectives are complementary when leveraged on spatially aligned multimodal data. We also introduce X- and 2D-ALiBi, which spatially biases our cross- and self-attention matrices. These strategies improve representations and allow our models to effectively extrapolate to images up to 17.6x larger at test-time. CROMA outperforms the current SoTA multispectral model, evaluated on: four classification benchmarks — finetuning (avg. 1.8%), linear (avg. 2.4%) and nonlinear (avg. 1.4%) probing, kNN classification (avg. 3.5%), and K-means clustering (avg. 8.4%); and three segmentation benchmarks (avg. 6.4%). CROMA’s rich, optionally multimodal representations can be widely leveraged across remote sensing applications.

arxiv情報

著者 Anthony Fuller,Koreen Millard,James R. Green
発行日 2023-11-01 15:07:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク