Mamba2D: A Natively Multi-Dimensional State-Space Model for Vision Tasks

要約

状態空間モデル (SSM) は、長年のトランスフォーマー アーキテクチャに代わる強力かつ効率的な代替手段として最近登場しました。
ただし、既存の SSM の概念化には、自然言語処理のルーツに由来する根深いバイアスが残っています。
これにより、視覚入力の空間依存特性を適切にモデル化する能力が制限されます。
この論文では、ネイティブな多次元定式化から始めて、現代の選択的状態空間技術を再導出することで、これらの制限に対処します。
現在、先行研究では、空間依存性を捕捉するために 1D スキャン方向の​​任意の組み合わせに依存することにより、1D SSM を 2D データ (つまり、画像) にネイティブに適用することが試みられています。
対照的に、Mamba2D は、入力の両方の次元をネイティブに考慮する単一の 2D スキャン方向でこれを改善し、隠れ状態を構築するときに空間依存関係を効果的にモデル化します。
Mamba2D は、ImageNet-1K データセットを使用した標準的な画像分類評価において、視覚タスク用の SSM の以前の適応と同等のパフォーマンスを示します。

要約(オリジナル)

State-Space Models (SSMs) have recently emerged as a powerful and efficient alternative to the long-standing transformer architecture. However, existing SSM conceptualizations retain deeply rooted biases from their roots in natural language processing. This constrains their ability to appropriately model the spatially-dependent characteristics of visual inputs. In this paper, we address these limitations by re-deriving modern selective state-space techniques, starting from a natively multidimensional formulation. Currently, prior works attempt to apply natively 1D SSMs to 2D data (i.e. images) by relying on arbitrary combinations of 1D scan directions to capture spatial dependencies. In contrast, Mamba2D improves upon this with a single 2D scan direction that factors in both dimensions of the input natively, effectively modelling spatial dependencies when constructing hidden states. Mamba2D shows comparable performance to prior adaptations of SSMs for vision tasks, on standard image classification evaluations with the ImageNet-1K dataset.

arxiv情報

著者 Enis Baty,Alejandro Hernández Díaz,Chris Bridges,Rebecca Davidson,Steve Eckersley,Simon Hadfield
発行日 2024-12-20 18:50:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク