要約
Mambaなどの選択的状態空間モデル(SSM)は、1Dシーケンシャルデータで長距離依存関係をキャプチャすることに非常に優れていますが、2D視覚タスクへのアプリケーションは依然として課題に直面しています。
現在の視覚的なSSMは、多くの場合、画像を1Dシーケンスに変換し、さまざまなスキャンパターンを使用してローカル空間依存関係を組み込みます。
ただし、これらの方法は、複雑な画像の空間構造と、延長されたスキャンパスによって引き起こされる計算コストの増加を効果的にキャプチャする上で制限されています。
これらの制限に対処するために、州空間で近隣の接続性を直接確立する新しいアプローチであるSpatial-Mambaを提案します。
シーケンシャル状態遷移のみに依存する代わりに、構造認識状態融合方程式を導入します。これは、拡張された畳み込みを活用して画像の空間構造依存関係をキャプチャし、視覚的な文脈情報の流れを大幅に促進します。
空間マンバは、3つの段階で進行します。単方向スキャンでの初期状態計算、構造認識状態融合による空間コンテキストの取得、および観測方程式を使用した最終状態計算。
私たちの理論分析は、空間マンバが同じマトリックス乗算フレームワークの下で元のマンバと線形の注意を統合し、私たちの方法をより深く理解することを示しています。
実験結果は、単一のスキャンでさえ、画像分類、検出、およびセグメンテーションにおける最先端のSSMベースのモデルを達成または上回ることが空間マンバがいることを示しています。
ソースコードと訓練されたモデルは、https://github.com/edwardchasel/spatial-mambaにあります。
要約(オリジナル)
Selective state space models (SSMs), such as Mamba, highly excel at capturing long-range dependencies in 1D sequential data, while their applications to 2D vision tasks still face challenges. Current visual SSMs often convert images into 1D sequences and employ various scanning patterns to incorporate local spatial dependencies. However, these methods are limited in effectively capturing the complex image spatial structures and the increased computational cost caused by the lengthened scanning paths. To address these limitations, we propose Spatial-Mamba, a novel approach that establishes neighborhood connectivity directly in the state space. Instead of relying solely on sequential state transitions, we introduce a structure-aware state fusion equation, which leverages dilated convolutions to capture image spatial structural dependencies, significantly enhancing the flow of visual contextual information. Spatial-Mamba proceeds in three stages: initial state computation in a unidirectional scan, spatial context acquisition through structure-aware state fusion, and final state computation using the observation equation. Our theoretical analysis shows that Spatial-Mamba unifies the original Mamba and linear attention under the same matrix multiplication framework, providing a deeper understanding of our method. Experimental results demonstrate that Spatial-Mamba, even with a single scan, attains or surpasses the state-of-the-art SSM-based models in image classification, detection and segmentation. Source codes and trained models can be found at https://github.com/EdwardChasel/Spatial-Mamba.
arxiv情報
著者 | Chaodong Xiao,Minghan Li,Zhengqiang Zhang,Deyu Meng,Lei Zhang |
発行日 | 2025-02-26 14:20:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google