APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference

要約

大規模な言語モデル (LM) を使用した微調整と推論は、一般にコストがかかることが知られています。
事前トレーニング済み LM に対するパラメーター効率の高い微調整は、少数の LM パラメーターを更新することでトレーニング メモリを削減しますが、推論効率は向上しません。
構造化枝刈りは、一貫したパラメーター ブロックを削除することで LM 推論の効率を向上させますが、多くの場合、トレーニング メモリと時間が増加します。
トレーニングと推論の両方の効率を向上させるために、LM のパラメーターを適応的にプルーニングおよび調整する APT を導入します。
微調整の初期段階で、APT は、効率性のために重要でないパラメータを破棄しながら、高速かつ正確な収束を実現するために顕著な調整パラメータを動的に追加します。
ベースラインと比較して、私たちの実験では、パラメータが 40% 残っている状態で RoBERTa および T5 モデルを枝刈りした場合、APT はタスク パフォーマンスを最大 98% 維持する一方、パラメータが 70% 残っている LLaMA モデルのパフォーマンスは 86.4% を維持することが示されています。
さらに、APT は LM の微調整を最大 8 倍高速化し、大規模な LM のメモリ トレーニング フットプリントを最大 70% 削減します。

要約(オリジナル)

Fine-tuning and inference with large Language Models (LM) are generally known to be expensive. Parameter-efficient fine-tuning over pretrained LMs reduces training memory by updating a small number of LM parameters but does not improve inference efficiency. Structured pruning improves LM inference efficiency by removing consistent parameter blocks, yet often increases training memory and time. To improve both training and inference efficiency, we introduce APT that adaptively prunes and tunes parameters for the LMs. At the early stage of fine-tuning, APT dynamically adds salient tuning parameters for fast and accurate convergence while discarding unimportant parameters for efficiency. Compared to baselines, our experiments show that APT maintains up to 98% task performance when pruning RoBERTa and T5 models with 40% parameters left while keeping 86.4% LLaMA models’ performance with 70% parameters remained. Furthermore, APT speeds up LMs fine-tuning by up to 8x and reduces large LMs memory training footprint by up to 70%.

arxiv情報

著者 Bowen Zhao,Hannaneh Hajishirzi,Qingqing Cao
発行日 2024-01-22 18:39:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク