要約
Transformers は言語モデリングにおける深層学習の成功の背後にある主なアーキテクチャでしたが、最近では Mamba などの状態空間モデル (SSM) が小規模から中規模では Transformers に匹敵するか、それを上回るパフォーマンスを発揮することが示されています。
我々は、これらのモデル群が実際には非常に密接に関連していることを示し、よく研究されたクラスの構造化半分離行列のさまざまな分解を通じて接続された、SSM と注意のバリアントの間の理論的接続の豊富なフレームワークを開発します。
私たちの状態空間二重性 (SSD) フレームワークを使用すると、言語モデリングで Transformers と引き続き競争しながら、コア層が 2 ~ 8 倍高速な Mamba の選択的 SSM を改良した新しいアーキテクチャ (Mamba-2) を設計できます。
要約(オリジナル)
While Transformers have been the main architecture behind deep learning’s success in language modeling, state-space models (SSMs) such as Mamba have recently been shown to match or outperform Transformers at small to medium scale. We show that these families of models are actually quite closely related, and develop a rich framework of theoretical connections between SSMs and variants of attention, connected through various decompositions of a well-studied class of structured semiseparable matrices. Our state space duality (SSD) framework allows us to design a new architecture (Mamba-2) whose core layer is an a refinement of Mamba’s selective SSM that is 2-8X faster, while continuing to be competitive with Transformers on language modeling.
arxiv情報
著者 | Tri Dao,Albert Gu |
発行日 | 2024-05-31 17:50:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google