SAAN: Similarity-aware attention flow network for change detection with VHR remote sensing images

要約

変化検出 (CD) は、地球観測分野で地表の動態を監視するための基本的かつ重要なタスクです。
既存の深層学習ベースの CD 手法は通常、重み共有シャム エンコーダ ネットワークを使用してバイタイム画像特徴を抽出し、デコーダ ネットワークを使用して変化領域を識別します。
ただし、これらの CD 手法は、1) 深いエンコーダー層が無関係な背景領域に焦点を当てていること、2) 変化領域におけるモデルの信頼性が異なるデコーダー段階で一貫していないことが観察されているため、依然として満足のいくパフォーマンスとは程遠いです。
1 つ目の問題は、ディープ エンコーダ層が唯一の出力監視を使用して不均衡な変更カテゴリから効果的に学習できないためであり、2 つ目の問題は、明示的なセマンティック一貫性の保持が欠如していることに起因します。
これらの問題に対処するために、新しい類似性認識アテンション フロー ネットワーク (SAAN) を設計します。
SAAN には、効果的な変更検出を実現するために、深く監視された類似性の最適化を備えた類似性ガイド型アテンション フロー モジュールが組み込まれています。
具体的には、深く監視された類似性最適化を使用して、バイタイム入力画像から意味関係を発見するように深いエンコーダー層を明示的にガイドすることで、最初の問題に対抗します。
抽出された特徴は、変化しない領域では意味的に類似し、変化する領域では類似しないように最適化されます。
2 番目の欠点は、提案された類似性ガイド付き注意フロー モジュールによって軽減できます。このモジュールには、類似性ガイド付き注意モジュールと、識別チャネルと領域に焦点を当てるようにモデルをガイドする注意フロー メカニズムが組み込まれています。
広範な CD タスクに対して実験を行うことにより、提案手法の有効性と一般化能力を評価しました。
実験結果は、私たちの方法が識別機能と意味的一貫性を維持しながら、いくつかの CD タスクで優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

Change detection (CD) is a fundamental and important task for monitoring the land surface dynamics in the earth observation field. Existing deep learning-based CD methods typically extract bi-temporal image features using a weight-sharing Siamese encoder network and identify change regions using a decoder network. These CD methods, however, still perform far from satisfactorily as we observe that 1) deep encoder layers focus on irrelevant background regions and 2) the models’ confidence in the change regions is inconsistent at different decoder stages. The first problem is because deep encoder layers cannot effectively learn from imbalanced change categories using the sole output supervision, while the second problem is attributed to the lack of explicit semantic consistency preservation. To address these issues, we design a novel similarity-aware attention flow network (SAAN). SAAN incorporates a similarity-guided attention flow module with deeply supervised similarity optimization to achieve effective change detection. Specifically, we counter the first issue by explicitly guiding deep encoder layers to discover semantic relations from bi-temporal input images using deeply supervised similarity optimization. The extracted features are optimized to be semantically similar in the unchanged regions and dissimilar in the changing regions. The second drawback can be alleviated by the proposed similarity-guided attention flow module, which incorporates similarity-guided attention modules and attention flow mechanisms to guide the model to focus on discriminative channels and regions. We evaluated the effectiveness and generalization ability of the proposed method by conducting experiments on a wide range of CD tasks. The experimental results demonstrate that our method achieves excellent performance on several CD tasks, with discriminative features and semantic consistency preserved.

arxiv情報

著者 Haonan Guo,Xin Su,Chen Wu,Bo Du,Liangpei Zhang
発行日 2023-08-28 13:35:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク