UV-Mamba: A DCN-Enhanced State Space Model for Urban Village Boundary Identification in High-Resolution Remote Sensing Images

要約

多様な地理的環境、複雑な景観、高密度の集落のため、リモートセンシング画像を使用して都市部の村の境界を自動的に識別することは非常に困難な作業です。
この論文では、高解像度リモート センシング画像における正確な境界検出のための、UV-Mamba と呼ばれる新しく効率的なニューラル ネットワーク モデルを提案します。
UV-Mamba は、変形可能な畳み込み (DCN) を組み込むことで、画像サイズの増大に伴って状態空間モデル (SSM) で発生する、長いシーケンス モデリングにおけるメモリ損失の問題を軽減します。
そのアーキテクチャはエンコーダ/デコーダ フレームワークを利用しており、効率的なマルチレベル セマンティック抽出のための 4 つの変形可能状態空間拡張 (DSSA) ブロックを備えたエンコーダと、抽出されたセマンティック情報を統合するデコーダが含まれています。
私たちは北京と西安のデータセットで実験を行いました。その結果、UV-Mamba が最先端のパフォーマンスを達成していることがわかりました。
具体的には、私たちのモデルは北京と西安のデータセットでそれぞれ 73.3% と 78.1% の IoU を達成しています。これは、以前の最良のモデルと比較して IoU が 1.2% と 3.4% 向上していることを示しています。また、推論速度が 6 倍速く、パラメーターが 40 分の 1 です。
カウント。
ソース コードと事前トレーニングされたモデルは補足資料で入手できます。

要約(オリジナル)

Owing to the diverse geographical environments, intricate landscapes, and high-density settlements, the automatic identification of urban village boundaries using remote sensing images is a highly challenging task. This paper proposes a novel and efficient neural network model called UV-Mamba for accurate boundary detection in high-resolution remote sensing images. UV-Mamba mitigates the memory loss problem in long sequence modeling, which arises in state space model (SSM) with increasing image size, by incorporating deformable convolutions (DCN). Its architecture utilizes an encoder-decoder framework, includes an encoder with four deformable state space augmentation (DSSA) blocks for efficient multi-level semantic extraction and a decoder to integrate the extracted semantic information. We conducted experiments on the Beijing and Xi’an datasets, and the results show that UV-Mamba achieves state-of-the-art performance. Specifically, our model achieves 73.3% and 78.1% IoU on the Beijing and Xi’an datasets, respectively, representing improvements of 1.2% and 3.4% IoU over the previous best model, while also being 6x faster in inference speed and 40x smaller in parameter count. Source code and pre-trained models are available in the supplementary material.

arxiv情報

著者 Lulin Li,Ben Chen,Xuechao Zou,Junliang Xing,Pin Tao
発行日 2024-09-05 11:23:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク