You Only Prune Once: Designing Calibration-Free Model Compression With Policy Learning

要約

大規模な言語モデル(LLMS)の増え続けるサイズは、計算とメモリの重い要件のために、展開に大きな課題を提示します。
現在のモデル剪定技術は、外部キャリブレーションデータセットに大きく依存してプルーンまたは圧縮するパラメーターを決定することにより、これらの問題を軽減しようとします。
さらに、これらの方法は、特に下流のタスクで、より高い圧縮速度にさらされると、深刻な性能劣化を引き起こすことがよくあります。
この論文では、モデルの剪定を政策学習プロセスとして再定式化することにより、これらの制限に対処する新しいモデル圧縮法であるPrunenetを提案します。
Prunenetは、モデルアーキテクチャの剪定プロセスを切り離し、キャリブレーションデータセットの必要性を排除します。
情報の損失を最小限に抑えるためにスペクトル構造を維持しながら、固有のモデルプロパティのみに基づいてパラメーターの重要性を評価する確率的剪定ポリシーを学習します。
Prunenetは、ラマ2-7Bモデルをわずか15分で圧縮でき、30%の圧縮率でゼロショットパフォーマンスを80%以上保持し、75%のパフォーマンスを保持する既存の方法よりも優れています。
さらに、複雑なマルチタスク言語理解タスクでは、Prunenetは、元のモデルの最大80%のパフォーマンスを維持することにより、その堅牢性を実証し、従来の構造化された圧縮技術の優れた代替手段であることが証明されています。

要約(オリジナル)

The ever-increasing size of large language models (LLMs) presents significant challenges for deployment due to their heavy computational and memory requirements. Current model pruning techniques attempt to alleviate these issues by relying heavily on external calibration datasets to determine which parameters to prune or compress, thus limiting their flexibility and scalability across different compression ratios. Moreover, these methods often cause severe performance degradation, particularly in downstream tasks, when subjected to higher compression rates. In this paper, we propose PruneNet, a novel model compression method that addresses these limitations by reformulating model pruning as a policy learning process. PruneNet decouples the pruning process from the model architecture, eliminating the need for calibration datasets. It learns a stochastic pruning policy to assess parameter importance solely based on intrinsic model properties while preserving the spectral structure to minimize information loss. PruneNet can compress the LLaMA-2-7B model in just 15 minutes, achieving over 80% retention of its zero-shot performance with a 30% compression ratio, outperforming existing methods that retain only 75% performance. Furthermore, on complex multitask language understanding tasks, PruneNet demonstrates its robustness by preserving up to 80% performance of the original model, proving itself a superior alternative to conventional structured compression techniques.

arxiv情報

著者 Ayan Sengupta,Siddhant Chaudhary,Tanmoy Chakraborty
発行日 2025-02-28 15:23:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク