要約
畳み込みニューラル ネットワーク (CNN) とビジョン トランスフォーマー (ViT) は、長い間視覚表現学習の主要なバックボーン ネットワークでした。
最近、ViT はその優れたフィッティング機能により CNN よりも注目を集めていますが、そのスケーラビリティはアテンション計算の 2 次複雑さによって大きく制限されています。
長いシーケンスを効率的にモデリングする Mamba の機能に触発され、ViT の有利な機能を維持しながら計算の複雑さを線形に軽減することを目的とした汎用ビジョン バックボーン モデルである VMamba を提案します。
視覚データ処理における VMamba の適応性を強化するために、クロススキャン モジュール (CSM) を導入し、グローバルな受容野を備えた 2D 画像空間での 1D 選択的スキャンを可能にします。
さらに、VMamba のパフォーマンスを強化し、推論速度を向上させるために、実装の詳細とアーキテクチャ設計をさらに改善しました。
広範な実験結果は、さまざまな視覚認識タスクにわたる VMamba の有望なパフォーマンスを実証し、既存のベンチマーク モデルと比較して入力スケーリング効率における顕著な利点を強調しています。
ソース コードは https://github.com/MzeroMiko/VMamba で入手できます。
要約(オリジナル)
Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) have long been the predominant backbone networks for visual representation learning. While ViTs have recently gained prominence over CNNs due to their superior fitting capabilities, their scalability is largely constrained by the quadratic complexity of attention computation. Inspired by the capability of Mamba in efficiently modeling long sequences, we propose VMamba, a generic vision backbone model aiming to reduce the computational complexity to linear while retaining ViTs’ advantageous features. To enhance VMamba’s adaptability in processing vision data, we introduce the Cross-Scan Module (CSM) to enable 1D selective scanning in 2D image space with global receptive fields. Additionally, we make further improvements in implementation details and architectural designs to enhance VMamba’s performance and boost its inference speed. Extensive experimental results demonstrate VMamba’s promising performance across various visual perception tasks, highlighting its pronounced advantages in input scaling efficiency compared to existing benchmark models. Source code is available at https://github.com/MzeroMiko/VMamba.
arxiv情報
著者 | Yue Liu,Yunjie Tian,Yuzhong Zhao,Hongtian Yu,Lingxi Xie,Yaowei Wang,Qixiang Ye,Yunfan Liu |
発行日 | 2024-04-10 14:25:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google