要約
畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、リモートセンシングの変化検出(CD)の分野で目覚ましい進歩を遂げてきた。しかし、どちらのアーキテクチャにも固有の欠点がある。最近、空間状態モデルに基づくMambaアーキテクチャが、一連の自然言語処理タスクにおいて目覚ましい性能を示し、上記2つのアーキテクチャの欠点を効果的に補うことができるようになった。本稿では、リモートセンシングの変化検出タスクにおけるMambaアーキテクチャの可能性を初めて探る。MambaBCD、MambaSCD、MambaBDAと呼ばれる対応するフレームワークを、それぞれバイナリ変化検出(BCD)、セマンティック変化検出(SCD)、建物損傷評価(BDA)のために調整する。この3つのフレームワークはいずれも、最先端の視覚的Mambaアーキテクチャをエンコーダとして採用しており、入力画像からグローバルな空間コンテキスト情報を完全に学習することができる。3つ全てのアーキテクチャで利用可能な変化デコーダに対して、我々は3つの時空間関係モデリング機構を提案する。これらの機構は、Mambaアーキテクチャと自然に組み合わせることができ、多時間特徴量の時空間相互作用を実現し、正確な変化情報を得るために、Mambaアーキテクチャの特性を十分に活用することができる。5つのベンチマークデータセットにおいて、我々の提案するフレームワークは、複雑な戦略やトリックを用いることなく、現行のCNNやTransformerベースのアプローチを凌駕し、Mambaアーキテクチャの可能性を完全に実証した。具体的には、3つのBCDデータセットSYU、LEVIR-CD+、WHU-CDにおいて、83.11%、88.39%、94.19%のF1スコアを獲得し、SCDデータセットSECONDにおいて、24.04%のSeKを獲得し、xBDデータセットにおいて、81.41%の総合F1スコアを獲得した。ソースコードはhttps://github.com/ChenHongruixuan/MambaCD。
要約(オリジナル)
Convolutional neural networks (CNN) and Transformers have made impressive progress in the field of remote sensing change detection (CD). However, both architectures have their inherent shortcomings. Recently, the Mamba architecture, based on spatial state models, has shown remarkable performance in a series of natural language processing tasks, which can effectively compensate for the shortcomings of the above two architectures. In this paper, we explore for the first time the potential of the Mamba architecture for remote sensing change detection tasks. We tailor the corresponding frameworks, called MambaBCD, MambaSCD, and MambaBDA, for binary change detection (BCD), semantic change detection (SCD), and building damage assessment (BDA), respectively. All three frameworks adopt the cutting-edge visual Mamba architecture as the encoder, which allows full learning of global spatial contextual information from the input images. For the change decoder, which is available in all three architectures, we propose three spatio-temporal relationship modeling mechanisms, which can be naturally combined with the Mamba architecture and fully utilize its attribute to achieve spatio-temporal interaction of multi-temporal features and obtain accurate change information. On five benchmark datasets, our proposed frameworks outperform current CNN- and Transformer-based approaches without using any complex strategies or tricks, fully demonstrating the potential of the Mamba architecture. Specifically, we obtained 83.11%, 88.39% and 94.19% F1 scores on the three BCD datasets SYSU, LEVIR-CD+, and WHU-CD; on the SCD dataset SECOND, we obtained 24.04% SeK; and on the xBD dataset, we obtained 81.41% overall F1 score. The source code will be available in https://github.com/ChenHongruixuan/MambaCD
arxiv情報
著者 | Hongruixuan Chen,Jian Song,Chengxi Han,Junshi Xia,Naoto Yokoya |
発行日 | 2024-04-04 13:06:25+00:00 |
arxivサイト | arxiv_id(pdf) |