要約
リモートセンシングによる変化検出は、同じエリアで記録され、異なるタイムスタンプで撮影された 2 つ以上の画像を比較して、地理的エンティティと環境要因の変化を定量的および定性的に評価することを目的としています。
主流のモデルは通常、ピクセルごとの変化検出パラダイムに基づいて構築されており、複雑なシーンや撮像条件の変化による変化の多様性を許容できません。
この欠点に対処するために、この論文ではマスク ビューによる変更検出を再考し、さらに対応する 1) メタ アーキテクチャ CDMask と 2) インスタンス ネットワーク CDMaskFormer を提案します。
CDMask のコンポーネントには、シャム バックボーン、変更エクストラクター、ピクセル デコーダー、トランスフォーマー デコーダー、およびマスク検出パラダイムの適切な機能を保証する正規化検出器が含まれます。
変更クエリはバイタイム特徴内容に基づいて適応的に更新できるため、提案された CDMask はさまざまな潜在データ分布に適応でき、複雑なシナリオにおける関心領域の変更を正確に識別できます。
したがって、変更検出タスク用にカスタマイズされたインスタンス ネットワーク CDMaskFormer をさらに提案します。これには、(i) 軽量操作と同時に時空間コンテキストをキャプチャするための、時空間畳み込み注意ベースのインスタンス化された変更抽出器。
(ii) より空間的な詳細を抽出するための、シーンガイド付き軸方向アテンションインスタンス化トランスフォーマー デコーダー。
CDMaskFormer の最先端のパフォーマンスは、満足のいく効率と精度のトレードオフを備えた 5 つのベンチマーク データセットで達成されます。
コードは https://github.com/xwmaxwma/rschange で入手できます。
要約(オリジナル)
Remote sensing change detection aims to compare two or more images recorded for the same area but taken at different time stamps to quantitatively and qualitatively assess changes in geographical entities and environmental factors. Mainstream models usually built on pixel-by-pixel change detection paradigms, which cannot tolerate the diversity of changes due to complex scenes and variation in imaging conditions. To address this shortcoming, this paper rethinks the change detection with the mask view, and further proposes the corresponding: 1) meta-architecture CDMask and 2) instance network CDMaskFormer. Components of CDMask include Siamese backbone, change extractor, pixel decoder, transformer decoder and normalized detector, which ensures the proper functioning of the mask detection paradigm. Since the change query can be adaptively updated based on the bi-temporal feature content, the proposed CDMask can adapt to different latent data distributions, thus accurately identifying regions of interest changes in complex scenarios. Consequently, we further propose the instance network CDMaskFormer customized for the change detection task, which includes: (i) a Spatial-temporal convolutional attention-based instantiated change extractor to capture spatio-temporal context simultaneously with lightweight operations; and (ii) a scene-guided axial attention-instantiated transformer decoder to extract more spatial details. State-of-the-art performance of CDMaskFormer is achieved on five benchmark datasets with a satisfactory efficiency-accuracy trade-off. Code is available at https://github.com/xwmaxwma/rschange.
arxiv情報
著者 | Xiaowen Ma,Zhenkai Wu,Rongrong Lian,Wei Zhang,Siyang Song |
発行日 | 2024-06-21 17:27:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google