Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment

要約

大規模言語モデル (LLM) の構造化枝刈りは、粗い粒度で冗長な重みグループを削除することで LLM を効率的に圧縮および高速化できるため、学術的に大きな関心を集めています。
LLM の現在の構造化プルーニング方法は通常、重みの重要性を評価するための単一の粒度に依存するため、下流のタスクで顕著なパフォーマンスの低下が生じます。
興味深いことに、私たちの経験的調査により、非構造化枝刈りを利用すると、より細かい粒度 (個別の重み) で重みを枝刈りすることでパフォーマンスの維持が向上し、構造化枝刈りと並べると、著しく多様な疎 LLM 構造が得られることが明らかになりました。
これは、LLM 枝刈りには、重量の重要性について全体的な評価と個別の評価の両方を評価することが不可欠であることを示唆しています。
この洞察に基づいて、LLM の枝刈りのための重みの重要性の細粒評価と粗粒評価を統合する新しい方法であるハイブリッド重み重要度評価 (HyWIA) を紹介します。
HyWIA は、アテンション メカニズムを活用して、エンドツーエンドの枝刈り方式で重みの重要性評価における粒度の最適なブレンドを適応的に決定します。
LLaMA-V1/V2、Vicuna、Baichuan、および Bloom に関するさまざまなベンチマークにわたる広範な実験により、LLM のプルーニングにおける HyWIA の有効性が実証されています。
たとえば、HyWIA は、LLaMA-7B を 50\% プルーニングする場合、7 つのダウンストリーム タスク全体の精度において、最先端の LLM-Pruner を平均 2.82\% 上回ります。

要約(オリジナル)

Structured pruning for large language models (LLMs) has garnered significant academic interest due to its ability to efficiently compress and accelerate LLMs by eliminating redundant weight groups at a coarse-grained granularity. Current structured pruning methods for LLMs typically depend on a singular granularity for assessing weight importance, resulting in notable performance degradation in downstream tasks. Intriguingly, our empirical investigations reveal that utilizing unstructured pruning, which achieves better performance retention by pruning weights at a finer granularity, \emph{i.e.}, individual weights, yields significantly varied sparse LLM structures when juxtaposed to structured pruning. This suggests that evaluating both holistic and individual assessment for weight importance is essential for LLM pruning. Building on this insight, we introduce the Hybrid-grained Weight Importance Assessment (HyWIA), a novel method that merges fine-grained and coarse-grained evaluations of weight importance for the pruning of LLMs. Leveraging an attention mechanism, HyWIA adaptively determines the optimal blend of granularity in weight importance assessments in an end-to-end pruning manner. Extensive experiments on LLaMA-V1/V2, Vicuna, Baichuan, and Bloom across various benchmarks demonstrate the effectiveness of HyWIA in pruning LLMs. For example, HyWIA surpasses the cutting-edge LLM-Pruner by an average margin of 2.82\% in accuracy across seven downstream tasks when pruning LLaMA-7B by 50\%.

arxiv情報

著者 Jun Liu,Zhenglun Kong,Pu Zhao,Changdi Yang,Hao Tang,Xuan Shen,Geng Yuan,Wei Niu,Wenbin Zhang,Xue Lin,Dong Huang,Yanzhi Wang
発行日 2024-12-16 18:31:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク