Fluctuation-based Adaptive Structured Pruning for Large Language Models

要約

ネットワーク プルーニングは、大規模言語モデル (LLM) の展開と推論による膨大なコンピューティング リソースの需要に対処する有望な方法です。
再トレーニング不要は、LLM の枝刈り方法にとって重要です。
ただし、LLM に対する既存の再トレーニング不要の枝刈りアプローチのほとんどは、非構造化枝刈りに重点を置いており、高速化のための特定のハードウェア サポートが必要です。
この論文では、FLAP (FLuctuation-based Adaptive Structured Pruning) と呼ばれる、LLM のための新しい再トレーニング不要の構造化枝刈りフレームワークを提案します。
ストレージを効果的に削減し、推論速度を向上させることで、ハードウェアに優しいです。
LLM の効果的な構造化プルーニングのために、構造化重要度メトリクスの定式化、グローバル圧縮モデルの適応的検索、およびパフォーマンス損失を軽減するための補償メカニズムの実装という、最大限の注意を必要とする 3 つの重要な要素に焦点を当てます。
まず、FLAP は、変動枝刈りメトリックに基づいて、重みの列が削除されたときに出力特徴マップが容易に復元可能かどうかを判断します。
次に、重要度スコアを標準化して、グローバルな圧縮モデル構造を適応的に決定します。
最後に、FLAP は追加のバイアス項を追加し、ベースライン値を使用して出力特徴マップを復元します。
私たちは、さまざまな言語ベンチマークでアプローチを徹底的に評価します。
再トレーニングなしで、私たちの方法は、LLM-Pruner や構造化枝刈りにおける Wanda の拡張などの最先端の方法を大幅に上回ります。
コードは https://github.com/CASIA-IVA-Lab/FLAP で公開されています。

要約(オリジナル)

Network Pruning is a promising way to address the huge computing resource demands of the deployment and inference of Large Language Models (LLMs). Retraining-free is important for LLMs’ pruning methods. However, almost all of the existing retraining-free pruning approaches for LLMs focus on unstructured pruning, which requires specific hardware support for acceleration. In this paper, we propose a novel retraining-free structured pruning framework for LLMs, named FLAP (FLuctuation-based Adaptive Structured Pruning). It is hardware-friendly by effectively reducing storage and enhancing inference speed. For effective structured pruning of LLMs, we highlight three critical elements that demand the utmost attention: formulating structured importance metrics, adaptively searching the global compressed model, and implementing compensation mechanisms to mitigate performance loss. First, FLAP determines whether the output feature map is easily recoverable when a column of weight is removed, based on the fluctuation pruning metric. Then it standardizes the importance scores to adaptively determine the global compressed model structure. At last, FLAP adds additional bias terms to recover the output feature maps using the baseline values. We thoroughly evaluate our approach on a variety of language benchmarks. Without any retraining, our method significantly outperforms the state-of-the-art methods, including LLM-Pruner and the extension of Wanda in structured pruning. The code is released at https://github.com/CASIA-IVA-Lab/FLAP.

arxiv情報

著者 Yongqi An,Xu Zhao,Tao Yu,Ming Tang,Jinqiao Wang
発行日 2023-12-19 09:23:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク