PIP: Perturbation-based Iterative Pruning for Large Language Models

要約

大規模な言語モデル(LLMS)のパラメーター数の急速な増加は、数十億人または数兆に達することであり、特にリソースに制約のある環境において、実際の展開に大きな課題をもたらします。
この問題を容易にするために、PIP(摂動ベースの反復剪定)を提案します。これは、2つの異なるビューからの情報を組み合わせたLLMSを最適化するための新しいダブルビュー構造剪定方法です。
グラデーションの違いの計算により、ピップはこれら2つのビューを区別するのに苦労しているものを繰り返しプルーン化します。
私たちの実験では、PIPがパラメーター数を約20%削減し、さまざまなベンチマーク全体で元のモデルの精度の85%以上を保持していることが示されています。
場合によっては、剪定されたモデルのパフォーマンスは、未給バージョンの5%以内であり、モデルの有効性の重要な側面を維持するPIPの能力を示しています。
さらに、PIPは、既存の最先端(SOTA)構造剪定方法よりも一貫して優れており、リソースを制限された環境でLLMを最適化するための主要な手法として確立します。

要約(オリジナル)

The rapid increase in the parameter counts of Large Language Models (LLMs), reaching billions or even trillions, presents significant challenges for their practical deployment, particularly in resource-constrained environments. To ease this issue, we propose PIP (Perturbation-based Iterative Pruning), a novel double-view structured pruning method to optimize LLMs, which combines information from two different views: the unperturbed view and the perturbed view. With the calculation of gradient differences, PIP iteratively prunes those that struggle to distinguish between these two views. Our experiments show that PIP reduces the parameter count by approximately 20% while retaining over 85% of the original model’s accuracy across varied benchmarks. In some cases, the performance of the pruned model is within 5% of the unpruned version, demonstrating PIP’s ability to preserve key aspects of model effectiveness. Moreover, PIP consistently outperforms existing state-of-the-art (SOTA) structured pruning methods, establishing it as a leading technique for optimizing LLMs in environments with constrained resources.

arxiv情報

著者 Yi Cao,Wei-Jie Xu,Yucheng Shen,Weijie Shi,Chi-Min Chan,Jianfeng Qu,Jiajie Xu
発行日 2025-06-02 13:12:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク