T-UNet: Triplet UNet for Change Detection in High-Resolution Remote Sensing Images

要約

リモートセンシングの画像変化検出は、同じエリアの異なる時間に取得された画像間の違いを識別することを目的としています。土地管理、環境モニタリング、災害評価などの分野で広く利用されている。現在、ほとんどの変化検出手法は、シャムネットワーク構造またはアーリーフュージョン構造に基づいている。シャム構造は、異なる時間における物体特徴の抽出に重点を置くが、変化情報への注意が欠けているため、誤報や検出の見逃しにつながる。アーリーフュージョン(EF)構造は、異なる位相の画像を融合した後に特徴量を抽出することに重点を置いているが、変化の詳細を検出するための異なる時刻の物体特徴の重要性を無視しているため、変化した物体のエッジを正確に識別することが困難である。これらの問題に対処し、より正確な結果を得るために、我々は3分岐エンコーダに基づく新しいネットワーク、トリプレットUNet(T-UNet)を提案する。トリプレットUNetは、トリプレットエンコーダを介して、物体特徴量と前後時相画像間の変化特徴量を同時に抽出することができる。トリプレットエンコーダの3つのブランチから抽出された特徴量を効果的に相互作用させ、融合させるために、我々はマルチブランチ空間-スペクトルクロスアテンションモジュール(MBSSCA)を提案する。デコーダの段階では、チャネルアテンション機構(CAM)と空間アテンション機構(SAM)を導入し、浅い層の詳細なテクスチャ情報と深い層の意味的な局在情報を完全に掘り起こし、統合する。

要約(オリジナル)

Remote sensing image change detection aims to identify the differences between images acquired at different times in the same area. It is widely used in land management, environmental monitoring, disaster assessment and other fields. Currently, most change detection methods are based on Siamese network structure or early fusion structure. Siamese structure focuses on extracting object features at different times but lacks attention to change information, which leads to false alarms and missed detections. Early fusion (EF) structure focuses on extracting features after the fusion of images of different phases but ignores the significance of object features at different times for detecting change details, making it difficult to accurately discern the edges of changed objects. To address these issues and obtain more accurate results, we propose a novel network, Triplet UNet(T-UNet), based on a three-branch encoder, which is capable to simultaneously extract the object features and the change features between the pre- and post-time-phase images through triplet encoder. To effectively interact and fuse the features extracted from the three branches of triplet encoder, we propose a multi-branch spatial-spectral cross-attention module (MBSSCA). In the decoder stage, we introduce the channel attention mechanism (CAM) and spatial attention mechanism (SAM) to fully mine and integrate detailed textures information at the shallow layer and semantic localization information at the deep layer.

arxiv情報

著者 Huan Zhong,Chen Wu
発行日 2023-08-04 14:44:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク