LLM-BIP: Structured Pruning for Large Language Models with Block-Wise Forward Importance Propagation

要約

大規模言語モデル (LLM) は、さまざまな言語タスクにわたって優れたパフォーマンスを示していますが、サイズが大きく、計算コストが高いため、広範な展開が妨げられています。
構造枝刈りは、チャネルやアテンション ヘッドなどの冗長な接続 (構造的にグループ化されたパラメーター) を削除することで、事前トレーニングされたモデルにスパース性を導入し、推論中の直接的なハードウェア アクセラレーションを促進するために使用される一般的な手法です。
既存の構造枝刈りアプローチでは、多くの場合、グローバルまたは層ごとの枝刈り基準のいずれかが採用されています。
ただし、接続の重要性の不正確な評価に起因する非効率性によって妨げられます。
グローバル プルーニング手法は通常、ゼロに近い信頼性の低い勾配を使用してコンポーネントの重要性を評価しますが、レイヤーごとのプルーニング アプローチでは重大なプルーニング エラーの蓄積の問題が発生します。
この目的を達成するために、LLM-BIP と呼ばれる、ブロックごとの重要度スコアの伝播に基づいた、より正確な枝刈りメトリクスを提案します。
具体的には、LLM-BIP は、それぞれの変圧器ブロック出力への影響を測定することによって接続の重要性を正確に評価します。これは、リプシッツ連続性の仮定から導出される上限を通過する 1 回の順方向パスで効率的に近似できます。
一般的なゼロショット タスクにわたって LLaMA-7B、Vicuna-7B、および LLaMA-13B を使用して、提案された手法を評価します。
結果は、私たちのアプローチが、以前の最高のベースラインと比較して、一般的な推論タスクの精度において平均 3.26% の向上を達成していることを示しています。
また、WikiText2 データセットと PTB データセットで、パープレキシティがそれぞれ平均 14.09 と 68.76 減少します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable performance across various language tasks, but their widespread deployment is impeded by their large size and high computational costs. Structural pruning is a prevailing technique used to introduce sparsity into pre-trained models and facilitate direct hardware acceleration during inference by removing redundant connections (structurally-grouped parameters), such as channels and attention heads. Existing structural pruning approaches often employ either global or layer-wise pruning criteria; however, they are hindered by ineffectiveness stemming from inaccurate evaluation of connection importance. Global pruning methods typically assess component importance using near-zero and unreliable gradients, while layer-wise pruning approaches encounter significant pruning error accumulation issues. To this end, we propose a more accurate pruning metric based on the block-wise importance score propagation, termed LLM-BIP. Specifically, LLM-BIP precisely evaluates connection importance by gauging its influence on the respective transformer block output, which can be efficiently approximated in a single forward pass through an upper bound derived from the assumption of Lipschitz continuity. We evaluate the proposed method using LLaMA-7B, Vicuna-7B, and LLaMA-13B across common zero-shot tasks. The results demonstrate that our approach achieves an average of 3.26% increase in accuracy for common reasoning tasks compared to previous best baselines. It also reduces perplexity by 14.09 and 68.76 on average for the WikiText2 dataset and PTB dataset, respectively.

arxiv情報

著者 Haihang Wu
発行日 2024-12-09 11:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク