SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot

要約

大規模なジェネレーティブ トレーニング済みトランスフォーマー (GPT) ファミリ モデルを、再トレーニングなしで精度の損失を最小限に抑えて、ワンショットで少なくとも 50% のスパース性に刈り込むことができることを初めて示しました。
これは、大規模な GPT ファミリー モデルで効率的かつ正確に機能するように特別に設計された、SparseGPT と呼ばれる新しいプルーニング メソッドによって実現されます。
利用可能な最大のオープンソース モデルである OPT-175B と BLOOM-176B で SparseGPT を 4.5 時間以内に実行でき、困惑度の増加を無視できる程度で 60% の非構造化スパース性に到達できます。驚くべきことに、これらのモデルから 1,000 億を超える重みを
推論時に無視されます。
SparseGPT は、半構造化 (2:4 および 4:8) パターンに一般化され、重みの量子化アプローチと互換性があります。
コードは https://github.com/IST-DASLab/sparsegpt で入手できます。

要約(オリジナル)

We show for the first time that large-scale generative pretrained transformer (GPT) family models can be pruned to at least 50% sparsity in one-shot, without any retraining, at minimal loss of accuracy. This is achieved via a new pruning method called SparseGPT, specifically designed to work efficiently and accurately on massive GPT-family models. We can execute SparseGPT on the largest available open-source models, OPT-175B and BLOOM-176B, in under 4.5 hours, and can reach 60% unstructured sparsity with negligible increase in perplexity: remarkably, more than 100 billion weights from these models can be ignored at inference time. SparseGPT generalizes to semi-structured (2:4 and 4:8) patterns, and is compatible with weight quantization approaches. The code is available at: https://github.com/IST-DASLab/sparsegpt.

arxiv情報

著者 Elias Frantar,Dan Alistarh
発行日 2023-03-22 12:33:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク