Mamba-Shedder: Post-Transformer Compression for Efficient Selective Structured State Space Models

要約

大規模な事前訓練モデルは、シーケンスモデリングで優れた結果を達成しました。
トランスブロックとその注意メカニズムは、これらのモデルの成功の主な要因となっています。
最近、選択的構造化状態空間モデル(SSM)などの代替アーキテクチャが、変圧器の非効率性に対処するために提案されています。
このペーパーでは、SSMベースのモデル、特にMambaとそのハイブリッドの圧縮について説明します。
さまざまな粒状で選択したコンポーネントの除去に対するこれらのモデルの感度を研究して、モデルのサイズと計算オーバーヘッドを削減するため、精度を維持しながら効率を改善します。
提案されたソリューションは、マンバシェダーと総称されると呼ばれ、推論中に最大1.4倍のスピードアップを実現し、モデルのパフォーマンスへの影響を最小限に抑えていくつかの冗長性を排除することでモデル効率を改善できることを示しています。
このコードは、https://github.com/intellabs/hardware-aware-automated-machine-learningで入手できます。

要約(オリジナル)

Large pre-trained models have achieved outstanding results in sequence modeling. The Transformer block and its attention mechanism have been the main drivers of the success of these models. Recently, alternative architectures, such as Selective Structured State Space Models (SSMs), have been proposed to address the inefficiencies of Transformers. This paper explores the compression of SSM-based models, particularly Mamba and its hybrids. We study the sensitivity of these models to the removal of selected components at different granularities to reduce the model size and computational overhead, thus improving their efficiency while maintaining accuracy. The proposed solutions, collectively referred to as Mamba-Shedder, achieve a speedup of up to 1.4x during inference, demonstrating that model efficiency can be improved by eliminating several redundancies with minimal impact on the overall model performance. The code is available at https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

arxiv情報

著者 J. Pablo Muñoz,Jinjie Yuan,Nilesh Jain
発行日 2025-01-28 17:22:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.0 パーマリンク