要約
Transformer ベースのモデルのエコシステムは、広範なデータを使用して大規模なモデルを構築することによって確立されています。
パラメーター効率の良い微調整 (PEFT) は、効果的なパフォーマンスを達成しながら最小限のコストでこれらのモデルを下流のタスクに展開するための重要なテクノロジーです。
最近、State Space Model (SSM) ベースのモデルである Mamba が、Transformers に代わる可能性のあるモデルとして注目を集めています。
多くの大規模な Mamba ベースのモデルが提案されていますが、事前トレーニングされた Mamba ベースのモデルを下流のタスクに効率的に適応させる方法は未開発のままです。
この論文では、Mamba の PEFT メソッドの探索的分析を実行します。
トランスフォーマーに対する既存の PEFT 手法を Mamba に適用した場合の有効性を調査します。
また、Mamba アーキテクチャとの整合性を高めるために、これらのメソッドも変更します。
さらに、Mamba の特徴的な構造を活用した新しい Mamba 固有の PEFT 手法を提案します。
私たちの実験では、PEFT はトランスフォーマーよりもマンバの方が効果的に機能することが示されています。
最後に、複数の PEFT 手法を効果的に組み合わせて、以前の研究を上回るフレームワークを提供する方法を示します。
再現性を確保するために、公開後にコードを公開します。
要約(オリジナル)
An ecosystem of Transformer-based models has been established by building large models with extensive data. Parameter-efficient fine-tuning (PEFT) is a crucial technology for deploying these models to downstream tasks with minimal cost while achieving effective performance. Recently, Mamba, a State Space Model (SSM)-based model, has attracted attention as a potential alternative to Transformers. While many large-scale Mamba-based models have been proposed, efficiently adapting pre-trained Mamba-based models to downstream tasks remains unexplored. In this paper, we conduct an exploratory analysis of PEFT methods for Mamba. We investigate the effectiveness of existing PEFT methods for Transformers when applied to Mamba. We also modify these methods to better align with the Mamba architecture. Additionally, we propose new Mamba-specific PEFT methods that leverage the distinctive structure of Mamba. Our experiments indicate that PEFT performs more effectively for Mamba than Transformers. Lastly, we demonstrate how to effectively combine multiple PEFT methods and provide a framework that outperforms previous works. To ensure reproducibility, we will release the code after publication.
arxiv情報
著者 | Masakazu Yoshimura,Teruaki Hayashi,Yota Maeda |
発行日 | 2024-11-06 11:57:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google