ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection


ディープラーニングは、異なるタイムスタンプで取得された同時登録された衛星画像ペア間の意味的変更領域を特定することを目的とした、リモートセンシング変更検出 (CD) において顕著な成功を収めています。
ただし、既存の畳み込みニューラル ネットワークやトランスフォーマー ベースのフレームワークでは、意味変更領域を正確にセグメント化するのに苦労することがよくあります。
さらに、標準的なセルフアテンションを備えたトランスフォーマーベースの手法は、画像解像度に関して 2 次の計算が複雑になるため、トレーニング データが限られている CD タスクでは実用的ではありません。
これらの問題に対処するために、我々は、豊富なコンテキスト情報を活用して、モデルのサイズを削減しながら変更領域を正確に推定する、効率的な変更検出フレームワーク ELGC-Net を提案します。
当社の ELGC-Net は、シャム エンコーダ、フュージョン モジュール、デコーダで構成されています。
私たちの設計の焦点は、エンコーダー内に効率的なローカル/グローバル コンテキスト アグリゲーター モジュールを導入することであり、新しいプール転置 (PT) アテンションと深さ方向の畳み込みを通じて、強化されたグローバル コンテキストとローカルの空間情報をそれぞれキャプチャします。
PT アテンションは、堅牢な特徴抽出のためにプーリング操作を採用し、転置されたアテンションにより計算コストを最小限に抑えます。
3 つの困難な CD データセットに対する広範な実験により、ELGC-Net が既存の方法よりも優れていることが実証されました。
最近のトランスフォーマーベースの CD アプローチ (ChangeFormer) と比較して、ELGC-Net は、トレーニング可能なパラメーターを大幅に削減しながら、LEVIR-CD データセットの和集合メトリックに対する交差で 1.4% の向上を達成します。
私たちが提案する ELGC-Net は、リモート センシング変化検出ベンチマークにおける新しい最先端のパフォーマンスを確立します。
最後に、同等のパフォーマンスを達成しながら、リソースに制約のある設定に適した、計算の複雑さが大幅に軽減された軽量のバリアントである ELGC-Net-LW も紹介します。
プロジェクトの URL https://github.com/techmn/elgcnet。


Deep learning has shown remarkable success in remote sensing change detection (CD), aiming to identify semantic change regions between co-registered satellite image pairs acquired at distinct time stamps. However, existing convolutional neural network and transformer-based frameworks often struggle to accurately segment semantic change regions. Moreover, transformers-based methods with standard self-attention suffer from quadratic computational complexity with respect to the image resolution, making them less practical for CD tasks with limited training data. To address these issues, we propose an efficient change detection framework, ELGC-Net, which leverages rich contextual information to precisely estimate change regions while reducing the model size. Our ELGC-Net comprises a Siamese encoder, fusion modules, and a decoder. The focus of our design is the introduction of an Efficient Local-Global Context Aggregator module within the encoder, capturing enhanced global context and local spatial information through a novel pooled-transpose (PT) attention and depthwise convolution, respectively. The PT attention employs pooling operations for robust feature extraction and minimizes computational cost with transposed attention. Extensive experiments on three challenging CD datasets demonstrate that ELGC-Net outperforms existing methods. Compared to the recent transformer-based CD approach (ChangeFormer), ELGC-Net achieves a 1.4% gain in intersection over union metric on the LEVIR-CD dataset, while significantly reducing trainable parameters. Our proposed ELGC-Net sets a new state-of-the-art performance in remote sensing change detection benchmarks. Finally, we also introduce ELGC-Net-LW, a lighter variant with significantly reduced computational complexity, suitable for resource-constrained settings, while achieving comparable performance. Project url https://github.com/techmn/elgcnet.


著者 Mubashir Noman,Mustansar Fiaz,Hisham Cholakkal,Salman Khan,Fahad Shahbaz Khan
発行日 2024-03-26 17:46:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク