GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model

要約

状態空間モデル (SSM) の最近の進歩により、二次二次複雑さを持つ長距離依存関係のモデル化において効果的なパフォーマンスが実証されました。
ただし、純粋な SSM ベースのモデルは、安定性とコンピュータ ビジョン タスクでの最適なパフォーマンスの達成に関連する課題に依然として直面しています。
私たちの論文では、コンピューター ビジョン向けに SSM ベースのモデルをスケーリングする際の課題、特に大きなモデル サイズの不安定性と非効率性について取り上げています。
これに対処するために、入力チャンネルを 4 つのグループに分割し、提案する SSM ベースの効率的な Visual Single Selective Scanning (VSSS) ブロックを各グループに独立して適用する Modulated Group Mamba レイヤーを導入します。各 VSSS ブロックは 4 つのグループのいずれかでスキャンされます。
空間方向。
また、変調グループ Mamba レイヤーは、4 つの VSSS ブロックをチャネル変調演算子にラップして、クロスチャネル通信を改善します。
さらに、大規模なモデルのトレーニングを安定させるために蒸留ベースのトレーニング目標を導入し、一貫したパフォーマンスの向上につながります。
私たちの包括的な実験は、提案された貢献のメリットを実証し、ImageNet-1K での画像分類、オブジェクト検出、MS-COCO でのインスタンス セグメンテーション、ADE20K でのセマンティック セグメンテーションの既存の方法よりも優れたパフォーマンスをもたらします。
2,300 万のパラメータを備えた当社の小型バリアントは、同じモデルの既存の最高の Mamba 設計と比較して、パラメータの点で 26% 効率的であると同時に、ImageNet-1K で分類トップ 1 の精度 83.3% という最先端のパフォーマンスを達成します。
サイズ。
私たちのコードとモデルは、https://github.com/Amshaker/GroupMamba から入手できます。

要約(オリジナル)

Recent advancements in state-space models (SSMs) have showcased effective performance in modeling long-range dependencies with subquadratic complexity. However, pure SSM-based models still face challenges related to stability and achieving optimal performance on computer vision tasks. Our paper addresses the challenges of scaling SSM-based models for computer vision, particularly the instability and inefficiency of large model sizes. To address this, we introduce a Modulated Group Mamba layer which divides the input channels into four groups and applies our proposed SSM-based efficient Visual Single Selective Scanning (VSSS) block independently to each group, with each VSSS block scanning in one of the four spatial directions. The Modulated Group Mamba layer also wraps the four VSSS blocks into a channel modulation operator to improve cross-channel communication. Furthermore, we introduce a distillation-based training objective to stabilize the training of large models, leading to consistent performance gains. Our comprehensive experiments demonstrate the merits of the proposed contributions, leading to superior performance over existing methods for image classification on ImageNet-1K, object detection, instance segmentation on MS-COCO, and semantic segmentation on ADE20K. Our tiny variant with 23M parameters achieves state-of-the-art performance with a classification top-1 accuracy of 83.3% on ImageNet-1K, while being 26% efficient in terms of parameters, compared to the best existing Mamba design of same model size. Our code and models are available at: https://github.com/Amshaker/GroupMamba.

arxiv情報

著者 Abdelrahman Shaker,Syed Talal Wasim,Salman Khan,Juergen Gall,Fahad Shahbaz Khan
発行日 2024-07-18 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク