VMamba: Visual State Space Model

要約

畳み込みニューラルネットワーク (CNN) とビジョントランスフォーマー (ViT) は、長い間視覚表現学習の主要なバックボーンネットワークでした。
最近、ViT はその優れたフィッティング機能により CNN よりも注目を集めていますが、そのスケーラビリティはアテンション計算の 2 次複雑さによって大きく制限されています。
長いシーケンスを効率的にモデリングする Mamba の機能に触発され、ViT の有利な機能を維持しながら計算の複雑さを線形に軽減することを目的とした汎用ビジョンバックボーンモデルである VMamba を提案します。
視覚データ処理における VMamba の適応性を強化するために、クロススキャンモジュール (CSM) を導入し、グローバルな受容野を備えた 2D 画像空間での 1D 選択的スキャンを可能にします。
さらに、VMamba のパフォーマンスを強化し、推論速度を向上させるために、実装の詳細とアーキテクチャ設計をさらに改善しました。
広範な実験結果は、さまざまな視覚認識タスクにわたる VMamba の有望なパフォーマンスを実証し、既存のベンチマークモデルと比較して入力スケーリング効率における顕著な利点を強調しています。
ソースコードは https://github.com/MzeroMiko/VMamba で入手できます。

要約(オリジナル)

Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) have long been the predominant backbone networks for visual representation learning. While ViTs have recently gained prominence over CNNs due to their superior fitting capabilities, their scalability is largely constrained by the quadratic complexity of attention computation. Inspired by the capability of Mamba in efficiently modeling long sequences, we propose VMamba, a generic vision backbone model aiming to reduce the computational complexity to linear while retaining ViTs’ advantageous features. To enhance VMamba’s adaptability in processing vision data, we introduce the Cross-Scan Module (CSM) to enable 1D selective scanning in 2D image space with global receptive fields. Additionally, we make further improvements in implementation details and architectural designs to enhance VMamba’s performance and boost its inference speed. Extensive experimental results demonstrate VMamba’s promising performance across various visual perception tasks, highlighting its pronounced advantages in input scaling efficiency compared to existing benchmark models. Source code is available at https://github.com/MzeroMiko/VMamba.

arxiv情報

著者	Yue Liu,Yunjie Tian,Yuzhong Zhao,Hongtian Yu,Lingxi Xie,Yaowei Wang,Qixiang Ye,Yunfan Liu
発行日	2024-04-10 14:25:12+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

VMamba: Visual State Space Model

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー