Sparse Matrix in Large Language Model Fine-tuning

要約

LoRA とそのバリアントは、過剰な計算コストを回避できるため、パラメータ効率の高い微調整 (PEFT) 手法として人気があります。
ただし、PEFT 手法と完全な微調整 (FT) の間には精度のギャップが存在することが多く、このギャップは体系的に研究されていません。
この研究では、微調整の計算コストとメモリ コストの両方を削減しながら、PEFT と完全微調整 (FT) のパフォーマンスのギャップを最小限に抑えることを目的とした、疎な部分行列を選択する方法を紹介します。
当社の疎行列調整 (SMT) メソッドは、勾配更新で最も重要な部分行列を特定することから始まり、微調整プロセス中にこれらのブロックのみを更新します。
私たちの実験では、SMT が、広範囲のタスクにわたって LLaMA などの一般的な大規模言語モデルを微調整する際に、他の PEFT ベースライン (LoRA や DoRA など) を常に上回り、同時に FT と比較して GPU メモリ フットプリントを 67% 削減できることを実証しました。
また、訓練可能なパラメーターの数が増加するにつれて、LoRA と DoRA のパフォーマンスがどのように頭打ちになって低下する傾向があるかについても調べます。対照的に、私たちの SMT 手法ではそのような問題が発生しません。

要約(オリジナル)

LoRA and its variants have become popular parameter-efficient fine-tuning (PEFT) methods due to their ability to avoid excessive computational costs. However, an accuracy gap often exists between PEFT methods and full fine-tuning (FT), and this gap has yet to be systematically studied. In this work, we introduce a method for selecting sparse sub-matrices that aim to minimize the performance gap between PEFT vs. full fine-tuning (FT) while also reducing both fine-tuning computational cost and memory cost. Our Sparse Matrix Tuning (SMT) method begins by identifying the most significant sub-matrices in the gradient update, updating only these blocks during the fine-tuning process. In our experiments, we demonstrate that SMT consistently surpasses other PEFT baseline (e.g. LoRA and DoRA) in fine-tuning popular large language models such as LLaMA across a broad spectrum of tasks, while reducing the GPU memory footprint by 67% compared to FT. We also examine how the performance of LoRA and DoRA tends to plateau and decline as the number of trainable parameters increases, in contrast, our SMT method does not suffer from such issue.

arxiv情報

著者 Haoze He,Juncheng Billy Li,Xuan Jiang,Heather Miller
発行日 2024-05-24 13:12:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク