Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models

要約

10 億以上のパラメーターを持つ大規模言語モデル (LLM) は、パフォーマンスを犠牲にすることなくネットワークの重みの一部を削減することを目的としたネットワーク プルーニングの主なターゲットです。
Weights Magnitude、SparseGPT、Wanda などの以前のアプローチは、重みのみに集中するか、スパース性のアクティベーションと重みを統合していました。
しかし、彼らは、事前トレーニングされた大規模な言語モデルから得られる有益な勾配を見落としていました。
この論文では、勾配ベースの言語モデル プルーナー (GBLM-Pruner) と呼ばれる、事前トレーニング済み LLM のための新しいスパース中心のプルーニング方法を紹介します。
GBLM-Pruner は、Taylor 展開の一次項を利用し、いくつかのキャリブレーション サンプルから適切に正規化された勾配を利用して重要性枝刈りスコアを決定することでトレーニング不要の方法で動作し、複数のベンチマークで SparseGPT や Wanda などの競合製品を大幅に上回ります。

興味深いことに、勾配を組み込んだ後、非構造化枝刈り方法では枝刈り後にいくつかの構造パターンが明らかになり、LLM のパラメータ構造に固有の幾何学的相互依存性が反映される傾向があります。
さらに、GBLM-Pruner は、その後の再トレーニングや重みの更新を行わずに機能し、他の対応物と同様の単純さを維持します。
さまざまな言語ベンチマークと複雑性にわたる LLaMA-1 および LLaMA-2 の広範な評価により、GBLM-Pruner がマグニチュード プルーニング、Wanda (重み + アクティベーション)、および SparseGPT (重み + アクティベーション + 重み更新) を大幅に上回っていることが示されています。
コードとモデルは https://github.com/RocktimJyotiDas/GBLM-Pruner で入手できます。

要約(オリジナル)

Large Language Models (LLMs) with a billion or more parameters are prime targets for network pruning, which aims to reduce a portion of the network weights without compromising performance. Prior approaches such as Weights Magnitude, SparseGPT, and Wanda, either concentrated solely on weights or integrated weights with activations for sparsity. However, they overlooked the informative gradients derived from pretrained large language models. In this paper, we present a novel sparsity-centric pruning method for pretrained LLMs, termed Gradient-based Language Model Pruner (GBLM-Pruner). GBLM-Pruner leverages the first-order term of the Taylor expansion, operating in a training-free manner by harnessing properly normalized gradients from a few calibration samples to determine the importance pruning score, and substantially outperforms competitive counterparts like SparseGPT and Wanda in multiple benchmarks. Intriguing, after incorporating gradients, the unstructured pruning method tends to reveal some structural patterns post-pruning, which mirrors the geometric interdependence inherent in the LLMs’ parameter structure. Additionally, GBLM-Pruner functions without any subsequent retraining or weight updates to maintain its simplicity as other counterparts. Extensive evaluations on LLaMA-1 and LLaMA-2 across various language benchmarks and perplexity show that GBLM-Pruner surpasses magnitude pruning, Wanda (weights+activations) and SparseGPT (weights+activations+weight update) by significant margins. Our code and models are available at https://github.com/RocktimJyotiDas/GBLM-Pruner.

arxiv情報

著者 Rocktim Jyoti Das,Liqun Ma,Zhiqiang Shen
発行日 2023-11-08 18:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク