Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning

要約

【タイトル】スケールに敏感なマルチスケール地理空間表現学習のためのスケール意識型マスクドオートエンコーダー

【要約】

– 多様なスケールの画像からタスクを行うモデルについて、一般的に大規模なプレトレーニング済みモデルが使用されるが、その画像は異なる条件やスケールを模倣するために大幅に加工されている。
– 加工済みのモデルは、リモートセンシングなどのスケール依存ドメインにおけるスケール固有情報を無視している。
– 本論文では、Scale-MAEを提案する。これは、プレトレーニングプロセス全体で、さまざまな既知スケールのデータ間の関係を明示的に学習する事前トレーニング方法である。
– Scale-MAEは、入力画像を既知の入力スケールでマスクし、ViT位置符号化のスケールを決定する地球が覆う面積によってスケールを決定する。
– Scale-MAEは、マスクされた画像を標準的なViTバックボーンでエンコードし、バンドパスフィルターを通してマスクされた画像を低/高周波数の画像に再構成する。
– ネットワークに低・高周波数の画像の再構成を課すことで、リモートセンシング画像に対する堅牢なマルチスケール表現を実現する。
– Scale-MAEは、現在の最先端技術と比較して、8つのリモートセンシングデータセット全体で2.4〜5.6%の非パラメトリックkNN分類の向上を実現し、SpaceNet建物セグメンテーション転送タスクでは、評価スケールの範囲で0.9mIoUから1.7mIoUの向上を実現する。

要約(オリジナル)

Large, pretrained models are commonly finetuned with imagery that is heavily augmented to mimic different conditions and scales, with the resulting models used for various tasks with imagery from a range of spatial scales. Such models overlook scale-specific information in the data for scale-dependent domains, such as remote sensing. In this paper, we present Scale-MAE, a pretraining method that explicitly learns relationships between data at different, known scales throughout the pretraining process. Scale-MAE pretrains a network by masking an input image at a known input scale, where the area of the Earth covered by the image determines the scale of the ViT positional encoding, not the image resolution. Scale-MAE encodes the masked image with a standard ViT backbone, and then decodes the masked image through a bandpass filter to reconstruct low/high frequency images at lower/higher scales. We find that tasking the network with reconstructing both low/high frequency images leads to robust multiscale representations for remote sensing imagery. Scale-MAE achieves an average of a $2.4 – 5.6\%$ non-parametric kNN classification improvement across eight remote sensing datasets compared to current state-of-the-art and obtains a $0.9$ mIoU to $1.7$ mIoU improvement on the SpaceNet building segmentation transfer task for a range of evaluation scales.

arxiv情報

著者 Colorado J. Reed,Ritwik Gupta,Shufan Li,Sarah Brockman,Christopher Funk,Brian Clipp,Kurt Keutzer,Salvatore Candido,Matt Uyttendaele,Trevor Darrell
発行日 2023-04-06 10:15:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク