Deformable Mamba for Wide Field of View Segmentation

要約

魚眼やパノラマ設定などの広視野カメラは、より広範囲の知覚に不可欠ですが、180{\deg} および 360{\deg} 画像に大きな歪みが生じ、高密度の予測タスクが複雑になります。
たとえば、歪みを認識する能力が不足している既存の MAMBA モデルは、パノラマ セマンティック セグメンテーションで適切に機能できません。
この問題に対処するために、この研究では、パノラマおよび魚眼セマンティック セグメンテーションのコンテキスト内で画像の歪みに対処するために特別に設計された統合フレームワークである Deformable Mamba を紹介します。
中心となるのは、一連の Deformable Mamba Fusion (DMF) ブロックで構築されたデコーダーで、極度の歪みを処理する際にフレームワーク全体をより変形可能、効率的、正確なものにします。
5 つのデータセットにわたる広範な評価により、特定の FoV に合わせて調整された以前の最先端の方法と比較して、私たちの方法がセグメンテーションの精度を一貫して向上させていることが実証されています。
特に、Deformable Mamba は 360{\deg} Stanford2D3D データセットで +2.5% のパフォーマンス向上を達成し、60{\deg} から 360{\deg} までの FoV 全体でより良い結果を示しています。

要約(オリジナル)

Wide-FoV cameras, like fisheye and panoramic setups, are essential for broader perception but introduce significant distortions in 180{\deg} and 360{\deg} images, complicating dense prediction tasks. For instance, existing MAMBA models lacking distortion-aware capacity cannot perform well in panoramic semantic segmentation. To address this problem, this work presents Deformable Mamba, a unified framework specifically designed to address imaging distortions within the context of panoramic and fisheye semantic segmentation. At the core is a decoder constructed with a series of Deformable Mamba Fusion (DMF) blocks, making the whole framework more deformable, efficient, and accurate, when handling extreme distortions. Extensive evaluations across five datasets demonstrate that our method consistently improves segmentation accuracy compared to the previous state-of-the-art methods tailored for specific FoVs. Notably, Deformable Mamba achieves a +2.5% performance improvement on the 360{\deg} Stanford2D3D dataset, and shows better results across FoVs from 60{\deg} to 360{\deg}.

arxiv情報

著者 Jie Hu,Junwei Zheng,Jiale Wei,Jiaming Zhang,Rainer Stiefelhagen
発行日 2024-11-25 15:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク