Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning

要約

リモート センシング画像は地球の包括的なビューを提供し、さまざまなセンサーがさまざまな空間縮尺で補完的なデータを収集します。
大規模な事前トレーニング済みのモデルは、通常、さまざまな条件と縮尺を模倣するために大幅に拡張された画像で微調整され、結果として得られるモデルは、さまざまな空間縮尺の画像を使用してさまざまなタスクに使用されます。
このようなモデルでは、データ内のスケール固有の情報が見落とされます。
このホワイト ペーパーでは、事前トレーニング プロセス全体を通じて、さまざまな既知のスケールでデータ間の関係を明示的に学習する事前トレーニング メソッドである Scale-MAE を紹介します。
Scale-MAE は、既知の入力縮尺で入力画像をマスキングすることによってネットワークを事前トレーニングします。画像がカバーする地球の領域は、画像の解像度ではなく、ViT 位置エンコーディングの縮尺を決定します。
Scale-MAE は、マスクされた画像を標準の ViT バックボーンでエンコードしてから、バンドパス フィルターを介してマスクされた画像をデコードし、低/高周波数の画像を低/高スケールで再構築します。
ネットワークに低/高周波数の両方の画像を再構築するタスクを課すと、リモートセンシング画像の堅牢なマルチスケール表現が得られることがわかりました。
Scale-MAE は、現在の最先端技術と比較して、8 つのリモート センシング データセット全体で平均 $5.0\%$ のノンパラメトリック kNN 分類の改善を達成し、SpaceNet の建物セグメンテーション転送で $0.9$ mIoU から $3.8$ mIoU の改善を達成します。
評価スケールの範囲のタスク。

要約(オリジナル)

Remote sensing imagery provides comprehensive views of the Earth, where different sensors collect complementary data at different spatial scales. Large, pretrained models are commonly finetuned with imagery that is heavily augmented to mimic different conditions and scales, with the resulting models used for various tasks with imagery from a range of spatial scales. Such models overlook scale-specific information in the data. In this paper, we present Scale-MAE, a pretraining method that explicitly learns relationships between data at different, known scales throughout the pretraining process. Scale-MAE pretrains a network by masking an input image at a known input scale, where the area of the Earth covered by the image determines the scale of the ViT positional encoding, not the image resolution. Scale-MAE encodes the masked image with a standard ViT backbone, and then decodes the masked image through a bandpass filter to reconstruct low/high frequency images at lower/higher scales. We find that tasking the network with reconstructing both low/high frequency images leads to robust multiscale representations for remote sensing imagery. Scale-MAE achieves an average of a $5.0\%$ non-parametric kNN classification improvement across eight remote sensing datasets compared to current state-of-the-art and obtains a $0.9$ mIoU to $3.8$ mIoU improvement on the SpaceNet building segmentation transfer task for a range of evaluation scales.

arxiv情報

著者 Colorado J. Reed,Ritwik Gupta,Shufan Li,Sarah Brockman,Christopher Funk,Brian Clipp,Christopher Funk,Salvatore Candido,Matt Uyttendaele,Trevor Darrell
発行日 2022-12-30 03:15:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク