Deformable Mamba for Wide Field of View Segmentation

要約

直線的な計算の複雑さを備えたマンバアーキテクチャの最近の進歩は、二次の複雑さに苦しむトランスアーキテクチャの有望な代替手段です。
既存の作業は主にMAMBAをビジョンエンコーダーに適応させることに焦点を当てていますが、タスク固有のMAMBAデコーダーの重要な役割は、特に歪みが発生しやすい密度の高い予測タスクのために、依然として推奨されていないままです。
このペーパーでは、相互接続された2つの課題に対処します。(1)さまざまなアーキテクチャ(CNN-、Transformer、およびMambaベースのバックボーンなど)にシームレスに適応するマンバベースのデコーダーの設計、および(2)didtorion-aware能力を欠くデコーダーのパフォーマンスのパフォーマンスは、広範囲の画像を処理する際のディストーションアウェア能力を欠くデコーダーのパフォーマンス(E.G.、180 {\ deg}
パノラマ設定)。
Mambaの計算効率を適応的な歪み認識と統合する効率的な歪みアウェアデコーダーであるDeformable Mambaデコーダーを提案します。
5つの広範囲のセグメンテーションベンチマークでの包括的な実験は、その有効性を検証します。
特に、当社のデコーダーは、広く使用されているデコーダーヘッドと比較して、360 {\ deg} Stanford2D3Dセグメンテーションベンチマークで +2.5%のパフォーマンス改善を達成し、72%のパラメーターと97%のフロップを減らします。

要約(オリジナル)

Recent advancements in the Mamba architecture, with its linear computational complexity, being a promising alternative to transformer architectures suffering from quadratic complexity. While existing works primarily focus on adapting Mamba as vision encoders, the critical role of task-specific Mamba decoders remains under-explored, particularly for distortion-prone dense prediction tasks. This paper addresses two interconnected challenges: (1) The design of a Mamba-based decoder that seamlessly adapts to various architectures (e.g., CNN-, Transformer-, and Mamba-based backbones), and (2) The performance degradation in decoders lacking distortion-aware capability when processing wide-FoV images (e.g., 180{\deg} fisheye and 360{\deg} panoramic settings). We propose the Deformable Mamba Decoder, an efficient distortion-aware decoder that integrates Mamba’s computational efficiency with adaptive distortion awareness. Comprehensive experiments on five wide-FoV segmentation benchmarks validate its effectiveness. Notably, our decoder achieves a +2.5% performance improvement on the 360{\deg} Stanford2D3D segmentation benchmark while reducing 72% parameters and 97% FLOPs, as compared to the widely-used decoder heads.

arxiv情報

著者 Jie Hu,Junwei Zheng,Jiale Wei,Jiaming Zhang,Rainer Stiefelhagen
発行日 2025-03-11 16:05:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク