MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

要約

状態空間モデル (SSM) は、シーケンシャル モデリングの分野で有力な候補となっており、トランスフォーマーの優位性に挑戦しています。
同時に、Mixture of Experts (MoE) は、最近の最先端のオープンソース モデルを含む、Transformer ベースの LLM を大幅に改善しました。
SSM のスケーリングの可能性を引き出すには、SSM を MoE と組み合わせる必要があると提案します。
これを、Transformer のような驚くべきパフォーマンスを実現する最近の SSM ベースのモデルである Mamba で紹介します。
私たちのモデルである MoE-Mamba は、Mamba と Transformer-MoE の両方よりも優れています。
特に、MoE-Mamba は、Transformer に対する Mamba の推論パフォーマンスの向上を維持しながら、2.2 倍少ないトレーニング ステップで Mamba と同じパフォーマンスに達します。

要約(オリジナル)

State Space Models (SSMs) have become serious contenders in the field of sequential modeling, challenging the dominance of Transformers. At the same time, Mixture of Experts (MoE) has significantly improved Transformer-based LLMs, including recent state-of-the-art open-source models. We propose that to unlock the potential of SSMs for scaling, they should be combined with MoE. We showcase this on Mamba, a recent SSM-based model that achieves remarkable, Transformer-like performance. Our model, MoE-Mamba, outperforms both Mamba and Transformer-MoE. In particular, MoE-Mamba reaches the same performance as Mamba in 2.2x less training steps while preserving the inference performance gains of Mamba against the Transformer.

arxiv情報

著者 Maciej Pióro,Kamil Ciebiera,Krystian Król,Jan Ludziejewski,Sebastian Jaszczur
発行日 2024-01-08 18:35:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク