要約
Mamba (Gu & Dao、2024) などのディープ ステート スペース モデル (SSM) は、言語モデリングの強力なツールとして登場し、効率的な推論とシーケンス長の線形スケーリングによる高いパフォーマンスを提供します。
ただし、パラメータ効率の良い微調整 (PEFT) 手法を SSM ベースのモデルに適用することは、ほとんど研究されていないままです。
このペーパーは、次の 2 つの重要な質問を系統的に研究することを目的としています: (i) 既存の PEFT 手法は SSM ベースのモデルでどのように機能しますか?
(ii) 微調整に最も効果的なモジュールはどれですか?
SSM ベースのモデルで 4 つの基本的な PEFT 手法の経験的ベンチマークを実行します。
私たちの調査結果は、プロンプトベースの方法(プレフィックスチューニングなど)がもはや効果的ではないことを明らかにしており、この経験的結果は理論的分析によってさらに裏付けられています。
対照的に、LoRA は SSM ベースのモデルに対して引き続き有効です。
これらのモデル内での LoRA の最適な適用をさらに調査し、LoRA は SSM モジュールの調整には効果的ではないため、SSM モジュールを変更せずに線形射影行列に LoRA を適用すると最良の結果が得られることを理論的および実験的に実証しました。
パフォーマンスをさらに向上させるために、LoRA を線形射影行列に適用しながら、SSM モジュールの特定のチャネルと状態を選択的に更新する、Selective Dimension Tuning (SDLoRA) を備えた LoRA を導入します。
広範な実験結果は、このアプローチが標準の LoRA よりも優れていることを示しています。
要約(オリジナル)
Deep State Space Models (SSMs), such as Mamba (Gu & Dao, 2024), have emerged as powerful tools for language modeling, offering high performance with efficient inference and linear scaling in sequence length. However, the application of parameter-efficient fine-tuning (PEFT) methods to SSM-based models remains largely unexplored. This paper aims to systematically study two key questions: (i) How do existing PEFT methods perform on SSM-based models? (ii) Which modules are most effective for fine-tuning? We conduct an empirical benchmark of four basic PEFT methods on SSM-based models. Our findings reveal that prompt-based methods (e.g., prefix-tuning) are no longer effective, an empirical result further supported by theoretical analysis. In contrast, LoRA remains effective for SSM-based models. We further investigate the optimal application of LoRA within these models, demonstrating both theoretically and experimentally that applying LoRA to linear projection matrices without modifying SSM modules yields the best results, as LoRA is not effective at tuning SSM modules. To further improve performance, we introduce LoRA with Selective Dimension tuning (SDLoRA), which selectively updates certain channels and states on SSM modules while applying LoRA to linear projection matrices. Extensive experimental results show that this approach outperforms standard LoRA.
arxiv情報
著者 | Kevin Galim,Wonjun Kang,Yuchen Zeng,Hyung Il Koo,Kangwook Lee |
発行日 | 2024-10-11 17:30:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google