要約
BERT ファミリからの大規模言語モデル (LLM) の枝刈りが標準の圧縮ベンチマークとして浮上しており、このタスク用にいくつかの枝刈り方法が提案されています。
最近の「Sparsity May Cry」(SMC)ベンチマークでは、既存のすべての手法の有効性に疑問が生じ、多くの既知の枝刈り手法が失敗するように見える、より複雑な設定が示されました。
私たちは、下流のデータセットの微調整中に正確な BERT 枝刈りの問題を再検討し、たとえ困難な SMC ベンチマークであっても、枝刈りを成功させるための一連の一般的なガイドラインを提案します。
まず、埋め込みや分類ヘッドなどの枝刈りモデル コンポーネントの費用対便益分析を実行します。
2 番目に、目的のターゲットのスパース性に応じてトレーニング、スパース化、学習率のスケジュールをスケーリングする、シンプルだが一般的な方法を提供します。
最後に、LLM のコンテキストで知識蒸留のための適切なパラメータ化の重要性を調査します。
私たちのシンプルな洞察は、古典的な BERT 枝刈りベンチマークと SMC ベンチマークの両方で最先端の結果をもたらし、古典的な漸進的規模枝刈り (GMP) であっても、適切なアプローチを使用すれば競争力のある結果を生み出すことができることを示しています。
要約(オリジナル)
Pruning large language models (LLMs) from the BERT family has emerged as a standard compression benchmark, and several pruning methods have been proposed for this task. The recent “Sparsity May Cry” (SMC) benchmark put into question the validity of all existing methods, exhibiting a more complex setup where many known pruning methods appear to fail. We revisit the question of accurate BERT-pruning during fine-tuning on downstream datasets, and propose a set of general guidelines for successful pruning, even on the challenging SMC benchmark. First, we perform a cost-vs-benefits analysis of pruning model components, such as the embeddings and the classification head; second, we provide a simple-yet-general way of scaling training, sparsification and learning rate schedules relative to the desired target sparsity; finally, we investigate the importance of proper parametrization for Knowledge Distillation in the context of LLMs. Our simple insights lead to state-of-the-art results, both on classic BERT-pruning benchmarks, as well as on the SMC benchmark, showing that even classic gradual magnitude pruning (GMP) can yield competitive results, with the right approach.
arxiv情報
著者 | Eldar Kurtic,Torsten Hoefler,Dan Alistarh |
発行日 | 2023-12-21 03:11:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google