OpticalRS-4M: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset

要約

マスク イメージ モデリング (MIM) は、リモート センシング (RS) における基本的なビジュアル モデルを構築するために不可欠な方法となっています。
ただし、既存の RS データセットのサイズと多様性の制限により、一般化可能な表現を学習する MIM メソッドの機能が制限されます。
さらに、従来の MIM 技術ではすべてのトークンを再構築する必要があるため、不必要な計算オーバーヘッドが発生します。
これらの問題に対処するために、大規模な RS データセットの作成と効率的な MIM アプローチを特徴とする、RS モデル用の新しい事前トレーニング パイプラインを紹介します。
私たちは、公開されている RS データセットを収集し、除外、スライス、重複排除を通じてそれらを処理することにより、OpticalRS-4M という高品質のデータセットを厳選しました。
OpticalRS-4M は、物体検出やピクセル セグメンテーションなどのさまざまな RS タスクをカバーする 400 万枚の光学画像で構成されています。
効率を高めるために、意味論的に豊富なパッチ トークンを動的にエンコードして再構築する事前トレーニング手法である SelectiveMAE を提案します。これにより、RS 画像内の冗長な背景ピクセルによって引き起こされる従来の MIM モデルの非効率性が軽減されます。
広範な実験により、OpticalRS-4M が分類、検出、セグメンテーションのパフォーマンスを大幅に向上させ、SelectiveMAE がトレーニング効率を 2 倍以上向上させることが実証されました。
これは、RS 基本モデルの開発におけるパイプラインの有効性と拡張性を強調しています。

要約(オリジナル)

Masked Image Modeling (MIM) has become an essential method for building foundational visual models in remote sensing (RS). However, the limitations in size and diversity of existing RS datasets restrict the ability of MIM methods to learn generalizable representations. Additionally, conventional MIM techniques, which require reconstructing all tokens, introduce unnecessary computational overhead. To address these issues, we present a new pre-training pipeline for RS models, featuring the creation of a large-scale RS dataset and an efficient MIM approach. We curated a high-quality dataset named OpticalRS-4M by collecting publicly available RS datasets and processing them through exclusion, slicing, and deduplication. OpticalRS-4M comprises 4 million optical images covering various RS tasks, such as object detection and pixel segmentation. To enhance efficiency, we propose SelectiveMAE, a pre-training method that dynamically encodes and reconstructs semantically rich patch tokens, thereby reducing the inefficiencies of traditional MIM models caused by redundant background pixels in RS images. Extensive experiments demonstrate that OpticalRS-4M significantly improves classification, detection, and segmentation performance, while SelectiveMAE increases training efficiency over 2 times. This highlights the effectiveness and scalability of our pipeline in developing RS foundational models.

arxiv情報

著者 Fengxiang Wang,Hongzhen Wang,Di Wang,Zonghao Guo,Zhenyu Zhong,Long Lan,Jing Zhang,Zhiyuan Liu,Maosong Sun
発行日 2024-08-30 15:08:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク