MambaOut: Do We Really Need Mamba for Vision?

要約

Mamba は、状態空間モデル (SSM) の RNN のようなトークン ミキサーを備えたアーキテクチャであり、アテンション メカニズムの 2 次の複雑さに対処するために最近導入され、その後ビジョン タスクに適用されました。
それにもかかわらず、視覚に対する Mamba のパフォーマンスは、畳み込みモデルや注意ベースのモデルと比較すると圧倒的に劣ることがよくあります。
この論文では、Mamba の本質を掘り下げ、概念的に、Mamba は長期シーケンスと自己回帰特性を持つタスクに理想的に適していると結論付けています。
視覚タスクの場合、画像分類がどちらの特性とも一致しないため、このタスクには Mamba は必要ないと仮説を立てます。
検出およびセグメンテーションのタスクも自己回帰的ではありませんが、長期シーケンスの特性に準拠しているため、これらのタスクに対する Mamba の可能性を探求する価値は依然としてあると考えられます。
仮説を実証的に検証するために、コア トークン ミキサーである SSM を削除しながら Mamba ブロックを積み重ねることにより、MambaOut という名前の一連のモデルを構築します。
実験結果は私たちの仮説を強く裏付けています。
具体的には、私たちの MambaOut モデルは、ImageNet 画像分類においてすべての視覚的な Mamba モデルを上回っており、このタスクには Mamba が実際に不要であることを示しています。
検出とセグメンテーションに関しては、MambaOut は最先端のビジュアル Mamba モデルのパフォーマンスに匹敵するものではなく、長時間のビジュアル タスクに対する Mamba の可能性を示しています。
コードは https://github.com/yuweihao/MambaOut で入手できます。

要約(オリジナル)

Mamba, an architecture with RNN-like token mixer of state space model (SSM), was recently introduced to address the quadratic complexity of the attention mechanism and subsequently applied to vision tasks. Nevertheless, the performance of Mamba for vision is often underwhelming when compared with convolutional and attention-based models. In this paper, we delve into the essence of Mamba, and conceptually conclude that Mamba is ideally suited for tasks with long-sequence and autoregressive characteristics. For vision tasks, as image classification does not align with either characteristic, we hypothesize that Mamba is not necessary for this task; Detection and segmentation tasks are also not autoregressive, yet they adhere to the long-sequence characteristic, so we believe it is still worthwhile to explore Mamba’s potential for these tasks. To empirically verify our hypotheses, we construct a series of models named MambaOut through stacking Mamba blocks while removing their core token mixer, SSM. Experimental results strongly support our hypotheses. Specifically, our MambaOut model surpasses all visual Mamba models on ImageNet image classification, indicating that Mamba is indeed unnecessary for this task. As for detection and segmentation, MambaOut cannot match the performance of state-of-the-art visual Mamba models, demonstrating the potential of Mamba for long-sequence visual tasks. The code is available at https://github.com/yuweihao/MambaOut

arxiv情報

著者 Weihao Yu,Xinchao Wang
発行日 2024-05-20 16:36:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク