Mamba-R: Vision Mamba ALSO Needs Registers

要約

Vision Transformers と同様に、この論文では、Vision Mamba の機能マップ内にも存在するアーティファクトを特定します。
これらのアーティファクトは、画像の低情報背景領域に出現する高基準トークンに対応し、Vision Mamba ではより深刻に表示されます。これらのアーティファクトは、小さなサイズのモデルでも広く存在し、背景領域全体で広範囲にアクティブになります。
この問題を軽減するために、Vision Mamba に登録トークンを導入するという以前の解決策に従います。
Mamba ブロックの一方向推論パラダイムにうまく対処するために、2 つの重要な変更が導入されています。1) 入力トークン シーケンス全体にレジスタを均等に挿入すること、2) 最終決定予測のためにレジスタを再利用すること。
この新しいアーキテクチャを Mamba-R と呼びます。
定性的観察によると、バニラの Vision Mamba と比較して、Mamba-R の特徴マップはよりクリーンで、意味的に意味のある領域に重点を置いているように見えます。
量的には、Mamba-R はより強力なパフォーマンスを実現し、より優れたスケールを実現します。
たとえば、ImageNet ベンチマークでは、基本サイズの Mamba-R は 82.9% の精度を達成し、Vim-B の 81.8% を大幅に上回っています。
さらに、大きなモデル サイズ (つまり、3 億 4,100 万のパラメーター) へのスケーリングに初めて成功し、83.2% (384×384 入力で微調整した場合は 84.5%) という優れた精度を達成しました。
下流のセマンティック セグメンテーション タスクに関する追加の検証も、Mamba-R の有効性を裏付けています。

要約(オリジナル)

Similar to Vision Transformers, this paper identifies artifacts also present within the feature maps of Vision Mamba. These artifacts, corresponding to high-norm tokens emerging in low-information background areas of images, appear much more severe in Vision Mamba — they exist prevalently even with the tiny-sized model and activate extensively across background regions. To mitigate this issue, we follow the prior solution of introducing register tokens into Vision Mamba. To better cope with Mamba blocks’ uni-directional inference paradigm, two key modifications are introduced: 1) evenly inserting registers throughout the input token sequence, and 2) recycling registers for final decision predictions. We term this new architecture Mamba-R. Qualitative observations suggest, compared to vanilla Vision Mamba, Mamba-R’s feature maps appear cleaner and more focused on semantically meaningful regions. Quantitatively, Mamba-R attains stronger performance and scales better. For example, on the ImageNet benchmark, our base-size Mamba-R attains 82.9% accuracy, significantly outperforming Vim-B’s 81.8%; furthermore, we provide the first successful scaling to the large model size (i.e., with 341M parameters), attaining a competitive accuracy of 83.2% (84.5% if finetuned with 384×384 inputs). Additional validation on the downstream semantic segmentation task also supports Mamba-R’s efficacy.

arxiv情報

著者 Feng Wang,Jiahao Wang,Sucheng Ren,Guoyizhe Wei,Jieru Mei,Wei Shao,Yuyin Zhou,Alan Yuille,Cihang Xie
発行日 2024-05-23 17:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク