The Hidden Attention of Mamba Models

要約

Mamba レイヤーは、NLP、長距離シーケンス処理、コンピューター ビジョンなどの複数のドメインのモデリングに非常に効果的な、効率的な選択的状態空間モデル (SSM) を提供します。
選択的 SSM はデュアル モデルとして見なされ、1 つは IO 認識並列スキャンを介してシーケンス全体を並行してトレーニングし、自己回帰方式で展開します。
3 番目のビューを追加し、そのようなモデルが注意駆動型モデルと見なせることを示します。
この新しい視点により、基礎となるメカニズムをトランスフォーマーのセルフアテンション層のメカニズムと経験的および理論的に比較することができ、説明可能性の手法を使用して Mamba モデルの内部動作の内部を覗き見ることができます。
私たちのコードは公開されています。

要約(オリジナル)

The Mamba layer offers an efficient selective state space model (SSM) that is highly effective in modeling multiple domains, including NLP, long-range sequence processing, and computer vision. Selective SSMs are viewed as dual models, in which one trains in parallel on the entire sequence via an IO-aware parallel scan, and deploys in an autoregressive manner. We add a third view and show that such models can be viewed as attention-driven models. This new perspective enables us to empirically and theoretically compare the underlying mechanisms to that of the self-attention layers in transformers and allows us to peer inside the inner workings of the Mamba model with explainability methods. Our code is publicly available.

arxiv情報

著者 Ameen Ali,Itamar Zimerman,Lior Wolf
発行日 2024-03-31 14:31:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, F.2.2, I.2.7 パーマリンク