UNetMamba: An Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images

要約

高解像度のリモート センシング画像のセマンティック セグメンテーションは、土地被覆マッピング、都市計画、災害評価などの下流アプリケーションで不可欠です。既存の Transformer ベースの手法は精度と効率の間の制約に悩まされていますが、最近提案された Mamba は、
効率的。
したがって、このジレンマを克服するために、Mamba に基づく UNet のようなセマンティック セグメンテーション モデルである UNetMamba を提案します。
これには、高解像度画像内の複雑な情報を効率的にデコードできるマンバ セグメンテーション デコーダ (MSD) と、トレイン専用だがローカル コンテンツの認識を大幅に向上できるローカル監視モジュール (LSM) が組み込まれています。
広範な実験により、UNetMamba が最先端の手法を上回るパフォーマンスを示し、mIoU が LoveDA で 0.87%、ISPRS Vaihingen で 0.39% 増加し、軽量設計、メモリ フットプリントの削減、計算コストの削減を通じて高い効率を実現しました。
ソース コードは https://github.com/EnzeZhu2001/UNetMamba で入手できます。

要約(オリジナル)

Semantic segmentation of high-resolution remote sensing images is vital in downstream applications such as land-cover mapping, urban planning and disaster assessment.Existing Transformer-based methods suffer from the constraint between accuracy and efficiency, while the recently proposed Mamba is renowned for being efficient. Therefore, to overcome the dilemma, we propose UNetMamba, a UNet-like semantic segmentation model based on Mamba. It incorporates a mamba segmentation decoder (MSD) that can efficiently decode the complex information within high-resolution images, and a local supervision module (LSM), which is train-only but can significantly enhance the perception of local contents. Extensive experiments demonstrate that UNetMamba outperforms the state-of-the-art methods with mIoU increased by 0.87% on LoveDA and 0.39% on ISPRS Vaihingen, while achieving high efficiency through the lightweight design, less memory footprint and reduced computational cost. The source code is available at https://github.com/EnzeZhu2001/UNetMamba.

arxiv情報

著者 Enze Zhu,Zhan Chen,Dingkai Wang,Hanru Shi,Xiaoxuan Liu,Lei Wang
発行日 2024-10-21 14:04:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク