Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank Matrices

要約

この論文では、大規模言語モデル (LLM) を微調整するための新しいパラメーター効率の高いアプローチである Delta-LoRA を紹介します。
LoRA や AdaLoRA などの他の低ランク適応手法とは対照的に、Delta-LoRA は低ランク行列 $\bA$ と $\bB$ を更新するだけでなく、学習を事前に訓練された重み $\bW に伝播します。
$ 2 つの低ランク行列の積の差分を利用した更新 ($\bA^{(t+1)}\bB^{(t+1)} – \bA^{(t)}\bB^{
(t)}$)。
このような戦略は、下流のタスクに使用できる学習表現には低ランク行列の増分更新が不十分であるという制限に効果的に対処します。
さらに、$\bW$ の更新では $\bW$ の勾配を計算してその運動量を保存する必要がないため、Delta-LoRA は LoRA と同等のメモリ要件と計算コストを共有します。
広範な実験により、Delta-LoRA が既存の低ランク適応手法よりも大幅に優れていることが示されています。
私たちは、Delta-LoRA の有効性を強調する包括的な分析によってこれらの結果をさらに裏付けます。

要約(オリジナル)

In this paper, we present Delta-LoRA, which is a novel parameter-efficient approach to fine-tune large language models (LLMs). In contrast to LoRA and other low-rank adaptation methods such as AdaLoRA, Delta-LoRA not only updates the low-rank matrices $\bA$ and $\bB$, but also propagate the learning to the pre-trained weights $\bW$ via updates utilizing the delta of the product of two low-rank matrices ($\bA^{(t+1)}\bB^{(t+1)} – \bA^{(t)}\bB^{(t)}$). Such a strategy effectively addresses the limitation that the incremental update of low-rank matrices is inadequate for learning representations capable for downstream tasks. Moreover, as the update of $\bW$ does not need to compute the gradients of $\bW$ and store their momentums, Delta-LoRA shares comparable memory requirements and computational costs with LoRA. Extensive experiments show that Delta-LoRA significantly outperforms existing low-rank adaptation methods. We further support these results with comprehensive analyses that underscore the effectiveness of Delta-LoRA.

arxiv情報

著者 Bojia Zi,Xianbiao Qi,Lingzhi Wang,Jianan Wang,Kam-Fai Wong,Lei Zhang
発行日 2023-09-05 17:40:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク