LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning

要約

LLaMAやGLMのような大規模な事前学習済みモデル(LPM)は、微調整により様々なタスクで卓越した性能を示してきた。低ランク適応(LoRA)は、これらのLPMを下流タスクで安価に微調整するために登場したが、その展開は、膨大なモデルスケールと計算コストによって依然として妨げられている。ニューラルネットワークの刈り込みは、LPMを圧縮する方法を提供する。しかし、LPM用に設計された現在の刈り込み手法は、LoRAと互換性がありません。これは、LoRAの重みの結合を阻害する非構造的な刈り込みをLPM上で利用するためであり、また、刈り込みを導くために事前に訓練された重みの勾配に依存するため、大きなメモリオーバーヘッドを課す可能性がある。このため、我々はLoRAPruneを提案する。LoRAPruneは、効率的な推論のための正確でコンパクトなモデルを、メモリ効率の高い方法で提供する新しいフレームワークである。具体的には、まずLoRAガイド付き刈り込み基準を設計し、重要度推定のために、事前に訓練された重みの勾配ではなく、LoRAの重みと勾配を用いる。次に、冗長なチャンネルとヘッドを除去するための構造化された反復刈り込み手順を提案する。広範な実験結果は、LLaMA系列モデルにおいて、既存のアプローチよりも我々のLoRAPruneが優れた性能を持つことを示している。例えば、圧縮率50%において、LoRAPruneはLLM-PrunerをWikiText2で8.0、PTBデータセットで16.05、同時にメモリ使用量を52.6%削減した。コードはレビュー後に公開される予定です。

要約(オリジナル)

Large pre-trained models (LPMs), such as LLaMA and GLM, have shown exceptional performance across various tasks through fine-tuning. Although low-rank adaption (LoRA) has emerged to cheaply fine-tune these LPMs on downstream tasks, their deployment is still hindered by the vast model scale and computational costs. Neural network pruning offers a way to compress LPMs. However, the current pruning methods designed for LPMs are not compatible with LoRA. This is due to their utilization of unstructured pruning on LPMs, impeding the merging of LoRA weights, or their dependence on the gradients of pre-trained weights to guide pruning, which can impose significant memory overhead. To this end, we propose LoRAPrune, a new framework that delivers an accurate, compact model for efficient inference in a highly memory-effective manner. Specifically, we first design a LoRA-guided pruning criterion, which uses the weights and gradients of LoRA, rather than the gradients of pre-trained weights for importance estimation. We then propose a structured iterative pruning procedure, to remove redundant channels and heads. Extensive experimental results demonstrate the superior performance of our LoRAPrune over existing approaches on the LLaMA series models. For instance, at a 50\% compression rate, LoRAPrune outperforms LLM-Pruner by a perplexity reduction of 8.0 on WikiText2 and 16.05 on PTB datasets, while concurrently reducing memory usage by 52.6\%. The code will be released after review

arxiv情報

著者 Mingyang Zhang,Hao Chen,Chunhua Shen,Zhen Yang,Linlin Ou,Xinyi Yu,Bohan Zhuang
発行日 2023-10-03 12:51:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク