A Survey on Vision Mamba: Models, Applications and Challenges

要約

最近の選択的構造化状態空間モデルである Mamba は、長いシーケンスのモデリング タスクで優れたパフォーマンスを発揮します。
Mamba は、畳み込みニューラル ネットワークのモデリング制約を緩和し、グローバル受容野と動的重み付けを通じて、Transformer と同様の高度なモデリング機能を提供します。
重要なのは、通常、Transformer に関連する 2 次計算の複雑さを招くことなく、これを達成できることです。
以前の 2 つの主流の基礎モデルに対する利点により、Mamba は視覚的な基礎モデルとしての大きな可能性を示します。
研究者は Mamba をさまざまなコンピューター ビジョン タスクに積極的に適用し、多数の新しい研究につながっています。
コンピューター ビジョンの急速な進歩に遅れを取らないように、このホワイト ペーパーでは、ビジュアル Mamba のアプローチを包括的にレビューすることを目的としています。
このペーパーは、元の Mamba モデルの定式化を概説することから始めます。
続いて、ビジュアル Mamba のレビューでは、ビジュアル Mamba の中核となる洞察を解明するために、いくつかの代表的なバックボーン ネットワークを詳しく調べます。
次に、画像、ビデオ、点群、マルチモーダルなどのさまざまなモダリティを使用して、関連する作品を分類します。
特に、画像アプリケーションについては、より構造化された議論を促進するために、それらを個別のタスクにさらに整理します。
最後に、ビジュアル マンバの課題と今後の研究の方向性について説明し、この急速に進化する分野における将来の研究への洞察を提供します。
この作業でレビューしたビジュアル Mamba モデルの包括的なリストは、https://github.com/Ruixxxx/Awesome-Vision-Mamba-Models で入手できます。

要約(オリジナル)

Mamba, a recent selective structured state space model, performs excellently on long sequence modeling tasks. Mamba mitigates the modeling constraints of convolutional neural networks and offers advanced modeling capabilities similar to those of Transformers, through global receptive fields and dynamic weighting. Crucially, it achieves this without incurring the quadratic computational complexity typically associated with Transformers. Due to its advantages over the former two mainstream foundation models, Mamba exhibits great potential to be a visual foundation model. Researchers are actively applying Mamba to various computer vision tasks, leading to numerous emerging works. To help keep pace with the rapid advancements in computer vision, this paper aims to provide a comprehensive review of visual Mamba approaches. This paper begins by delineating the formulation of the original Mamba model. Subsequently, our review of visual Mamba delves into several representative backbone networks to elucidate the core insights of the visual Mamba. We then categorize related works using different modalities, including image, video, point cloud, multi-modal, and others. Specifically, for image applications, we further organize them into distinct tasks to facilitate a more structured discussion. Finally, we discuss the challenges and future research directions for visual Mamba, providing insights for future research in this quickly evolving area. A comprehensive list of visual Mamba models reviewed in this work is available at https://github.com/Ruixxxx/Awesome-Vision-Mamba-Models.

arxiv情報

著者 Rui Xu,Shu Yang,Yihui Wang,Bo Du,Hao Chen
発行日 2024-04-29 16:51:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク