Deformable Mamba for Wide Field of View Segmentation


このペーパーでは、相互接続された2つの課題に対処します。(1)さまざまなアーキテクチャ(CNN-、Transformer、およびMambaベースのバックボーンなど)にシームレスに適応するマンバベースのデコーダーの設計、および(2)didtorion-aware能力を欠くデコーダーのパフォーマンスのパフォーマンスは、広範囲の画像を処理する際のディストーションアウェア能力を欠くデコーダーのパフォーマンス(E.G.、180 {\ deg}
Mambaの計算効率を適応的な歪み認識と統合する効率的な歪みアウェアデコーダーであるDeformable Mambaデコーダーを提案します。
特に、当社のデコーダーは、広く使用されているデコーダーヘッドと比較して、360 {\ deg} Stanford2D3Dセグメンテーションベンチマークで +2.5%のパフォーマンス改善を達成し、72%のパラメーターと97%のフロップを減らします。


Recent advancements in the Mamba architecture, with its linear computational complexity, being a promising alternative to transformer architectures suffering from quadratic complexity. While existing works primarily focus on adapting Mamba as vision encoders, the critical role of task-specific Mamba decoders remains under-explored, particularly for distortion-prone dense prediction tasks. This paper addresses two interconnected challenges: (1) The design of a Mamba-based decoder that seamlessly adapts to various architectures (e.g., CNN-, Transformer-, and Mamba-based backbones), and (2) The performance degradation in decoders lacking distortion-aware capability when processing wide-FoV images (e.g., 180{\deg} fisheye and 360{\deg} panoramic settings). We propose the Deformable Mamba Decoder, an efficient distortion-aware decoder that integrates Mamba’s computational efficiency with adaptive distortion awareness. Comprehensive experiments on five wide-FoV segmentation benchmarks validate its effectiveness. Notably, our decoder achieves a +2.5% performance improvement on the 360{\deg} Stanford2D3D segmentation benchmark while reducing 72% parameters and 97% FLOPs, as compared to the widely-used decoder heads.


著者 Jie Hu,Junwei Zheng,Jiale Wei,Jiaming Zhang,Rainer Stiefelhagen
発行日 2025-03-11 16:05:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク