ComPEFT: Compression for Communicating Parameter Efficient Updates via Sparsification and Quantization

要約

パラメーター効率の良い微調整 (PEFT) 技術を使用すると、言語モデルを効率的に適応させて、新しいタスクやドメインに特化した「エキスパート」モデルを作成できます。
モデルのマージと合成汎化における最近の手法では、モジュールを動的に合成することでこれらのエキスパート モデルを活用し、ゼロショットまたは少数ショットの汎化を改善しています。
PEFT 手法の効率性にもかかわらず、エキスパート モデルのサイズにより、インターネットなどの待ち時間の長いネットワーク上でクエリごとにエキスパート モデルを取得したり、単一の GPU で複数のエキスパートにサービスを提供したりすることが困難になる可能性があります。
これらの問題に対処するために、PEFT ベースのモデルの微調整残差 (タスク ベクトル) を圧縮するための新しい方法である ComPEFT を紹介します。
ComPEFT は、スパース化と 3 値量子化を採用して、追加の再トレーニングを実行することなく、モデルのパフォーマンスを維持または向上させながら PEFT モジュールのサイズを削減します。
200M ~ 65B パラメーターを使用した T5、T0、および LLaMA ベースのモデルにわたる広範な評価において、ComPEFT は 8x ~ 50x の圧縮率を達成しました。
特に、ComPEFT はスケールに応じて向上し、より強力なモデルはより高い圧縮率とより優れたパフォーマンスを示すことを示します。
たとえば、LLaMA に適用された ComPEFT は、MMLU 上で QLoRA を 4.16% 上回り、ストレージ サイズが最大 26 倍削減されることを示しています。
さらに、ComPEFT によって生成された圧縮エキスパートが、数ショット構成の一般化機能を維持し、効率的な通信と計算を促進し、マージされたときに強化されたパフォーマンスを示すことを示します。
最後に、さまざまなメソッド コンポーネントの分析を提供し、他の PEFT メソッドと比較し、完全微調整の残差を圧縮する ComPEFT の有効性をテストします。
私たちのコードは https://github.com/prateeky2806/compeft で入手できます。

要約(オリジナル)

Parameter-efficient fine-tuning (PEFT) techniques make it possible to efficiently adapt a language model to create ‘expert’ models that specialize to new tasks or domains. Recent techniques in model merging and compositional generalization leverage these expert models by dynamically composing modules to improve zero/few-shot generalization. Despite the efficiency of PEFT methods, the size of expert models can make it onerous to retrieve expert models per query over high-latency networks like the Internet or serve multiple experts on a single GPU. To address these issues, we present ComPEFT, a novel method for compressing fine-tuning residuals (task vectors) of PEFT based models. ComPEFT employs sparsification and ternary quantization to reduce the size of the PEFT module without performing any additional retraining while preserving or enhancing model performance. In extensive evaluation across T5, T0, and LLaMA-based models with 200M – 65B parameters, ComPEFT achieves compression ratios of 8x – 50x. In particular, we show that ComPEFT improves with scale – stronger models exhibit higher compressibility and better performance. For example, we show that ComPEFT applied to LLaMA outperforms QLoRA by 4.16% on MMLU with a storage size reduction of up to 26x. In addition, we show that the compressed experts produced by ComPEFT maintain few-shot compositional generalization capabilities, facilitate efficient communication and computation, and exhibit enhanced performance when merged. Lastly, we provide an analysis of different method components, compare it with other PEFT methods, and test ComPEFT’s efficacy for compressing the residual of full-finetuning. Our code is available at https://github.com/prateeky2806/compeft.

arxiv情報

著者 Prateek Yadav,Leshem Choshen,Colin Raffel,Mohit Bansal
発行日 2023-11-22 05:28:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク