Gradient-Free Structured Pruning with Unlabeled Data

要約

大規模言語モデル (LLM) は、多くのドメインにわたる困難なタスクの解決に大きな成功を収めていますが、そのような成功には高い計算コストと推論の待ち時間が伴います。
開発者やサード パーティがこれらのモデルをカスタマイズするにつれて、効率的な推論を提供する必要性が高まっています。
プルーニングや蒸留などのモデル圧縮技術を使用して、推論コストを削減しようとする多くの取り組みが行われてきました。
ただし、これらの手法では、ラベル付けされたデータが必要になるか、圧縮されたモデルを再トレーニングして精度を回復する必要があるため、時間がかかります。
この論文では、ラベル付けされていないデータのみを使用する、勾配のない構造化プルーニング フレームワークを提案します。
BERT$_{BASE}$ および DistilBERT を使用した GLUE および SQuAD ベンチマークの評価は、提案されたアプローチの有効性を示しています。
事前トレーニング済みのモデルとラベル付けされていないデータの重みのみを使用することで、単一の GPU でわずか数分で、元の FLOP カウントの最大 40% を、すべてのタスクで 4% 未満の精度損失で削減できます。
考慮。

要約(オリジナル)

Large Language Models (LLMs) have achieved great success in solving difficult tasks across many domains, but such success comes with a high computation cost, and inference latency. As developers and third parties customize these models, the need to provide efficient inference has increased. Many efforts have attempted to reduce inference cost through model compression techniques such as pruning and distillation. However, these techniques either require labeled data, or are time-consuming as they require the compressed model to be retrained to regain accuracy. In this paper, we propose a gradient-free structured pruning framework that uses only unlabeled data. An evaluation on the GLUE and SQuAD benchmarks using BERT$_{BASE}$ and DistilBERT illustrates the effectiveness of the proposed approach. By only using the weights of the pre-trained model and unlabeled data, in a matter of a few minutes on a single GPU, up to 40% of the original FLOP count can be reduced with less than a 4% accuracy loss across all tasks considered.

arxiv情報

著者 Azade Nova,Hanjun Dai,Dale Schuurmans
発行日 2023-03-07 19:12:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク