SSMLoRA: Enhancing Low-Rank Adaptation with State Space Model

要約

微調整は、言語モデルを特定のダウンストリームタスクに適応させるための重要なアプローチですが、すべてのモデルパラメーターを更新することは、モデルサイズが増加するにつれて非現実的になります。
低ランク適応(LORA)などのパラメーター効率の高い微調整(PEFT)メソッドは、事前に訓練された重量マトリックスに追加の適応パラメーターを導入することにより、この課題に対処します。
ただし、LORAのパフォーマンスは、モデル内の異なる挿入ポイントによって異なり、不必要な挿入による潜在的なパラメーターの非効率性を強調しています。
この目的のために、SSMlora(状態空間モデルの低ランク適応)を提案します。これは、低ランクマトリックスを相互接続するための状態空間モデル(SSM)を組み込んだLORAの拡張です。
Ssmloraは、スパースの挿入があってもパフォーマンスが維持されることを保証します。
Ssmloraを使用すると、モデルは入力を低ランクスペースにマッピングするだけでなく、機能抽出を改善するだけでなく、以前の低ランクスペースからの計算を活用できます。
私たちの方法は、パラメーターの半分のみを使用しながら、一般的な言語理解評価(接着剤)ベンチマークでLORAに匹敵するパフォーマンスを達成します。
さらに、その構造により、Ssmloraは、より長い入力シーケンスでタスクを処理することに有望です。
。ここでコードを見つけることができます:https://github.com/yuhkalhic/ssmlora。

要約(オリジナル)

Fine-tuning is a key approach for adapting language models to specific downstream tasks, but updating all model parameters becomes impractical as model sizes increase. Parameter-Efficient Fine-Tuning (PEFT) methods, such as Low-Rank Adaptation (LoRA), address this challenge by introducing additional adaptation parameters into pre-trained weight matrices. However, LoRA’s performance varies across different insertion points within the model, highlighting potential parameter inefficiency due to unnecessary insertions. To this end, we propose SSMLoRA (State Space Model Low-Rank Adaptation), an extension of LoRA that incorporates a State Space Model (SSM) to interconnect low-rank matrices. SSMLoRA ensures that performance is maintained even with sparser insertions. SSMLoRA allows the model to not only map inputs to a low-rank space for better feature extraction but also leverage the computations from the previous low-rank space. Our method achieves comparable performance to LoRA on the General Language Understanding Evaluation (GLUE) benchmark while using only half the parameters. Additionally, due to its structure, SSMLoRA shows promise in handling tasks with longer input sequences. .You can find our code here:https://github.com/yuhkalhic/SSMLoRA.

arxiv情報

著者 Jiayang Yu,Yihang Zhang,Bin Wang,Peiqin Lin,Yongkang Liu,Shi Feng
発行日 2025-02-07 14:22:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク