SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series

要約

トランスフォーマーは、シーケンス ミキシングにアテンション ネットワークを、チャネル ミキシングに MLP を広く採用しており、ドメインを超えたブレークスルーを達成する上で極めて重要な役割を果たしています。
ただし、最近の文献では、低誘導バイアスや入力シーケンス長に関する二次複雑性など、アテンション ネットワークの問題点が強調されています。
S4 やその他 (Hippo、Global Convolutions、Liquid S4、LRU、Mega、Mamba) のような状態空間モデル (SSM) は、より長いシーケンス長の処理を支援するために上記の問題に対処するために登場しました。
Mamba は最先端の SSM ですが、コンピューター ビジョン データセット用に大規模なネットワークに拡張した場合に安定性の問題があります。
我々は、特定の固有値計算によるチャネルモデリングにアインシュタインFFT(EinFFT)を導入し、シーケンスモデリングにMambaブロックを使用する新しいアーキテクチャであるSiMBAを提案します。
画像および時系列ベンチマークにわたる広範なパフォーマンス調査により、SiMBA が既存の SSM を上回り、最先端のトランスとのパフォーマンスのギャップを埋めることが実証されました。
特に、SiMBA は、ImageNet 上の新しい最先端の SSM としての地位を確立しており、Stanford Car や Flower などの転送学習ベンチマーク、タスク学習ベンチマーク、および 7 つの時系列ベンチマーク データセットをサポートしています。
プロジェクト ページは、この Web サイト ~\url{https://github.com/badripatro/Simba} から入手できます。

要約(オリジナル)

Transformers have widely adopted attention networks for sequence mixing and MLPs for channel mixing, playing a pivotal role in achieving breakthroughs across domains. However, recent literature highlights issues with attention networks, including low inductive bias and quadratic complexity concerning input sequence length. State Space Models (SSMs) like S4 and others (Hippo, Global Convolutions, liquid S4, LRU, Mega, and Mamba), have emerged to address the above issues to help handle longer sequence lengths. Mamba, while being the state-of-the-art SSM, has a stability issue when scaled to large networks for computer vision datasets. We propose SiMBA, a new architecture that introduces Einstein FFT (EinFFT) for channel modeling by specific eigenvalue computations and uses the Mamba block for sequence modeling. Extensive performance studies across image and time-series benchmarks demonstrate that SiMBA outperforms existing SSMs, bridging the performance gap with state-of-the-art transformers. Notably, SiMBA establishes itself as the new state-of-the-art SSM on ImageNet and transfer learning benchmarks such as Stanford Car and Flower as well as task learning benchmarks as well as seven time series benchmark datasets. The project page is available on this website ~\url{https://github.com/badripatro/Simba}.

arxiv情報

著者 Badri N. Patro,Vijay S. Agneeswaran
発行日 2024-03-22 17:22:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SY, eess.IV, eess.SY パーマリンク