One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models

要約

Generative Pretrained Transformer~(GPT) ファミリのさまざまな Large Language Model(LLM) は、幅広いテキスト生成タスクで優れたパフォーマンスを達成しています。
ただし、モデルのサイズが巨大であるため、推論遅延が大きいため、現実世界のアプリケーションでの実用化が妨げられてきました。
したがって、量子化、枝刈り、その他の手段を通じて LLM の効率を改善することが、LLM 研究における重要な課題となっています。
この研究では、ヘシアン感度を意識した混合スパース性枝刈りに基づいて、再トレーニングを必要とせずに LLM を少なくとも 50% のスパース性まで枝刈りする方法を提案します。
感度に基づいてスパース性を適応的に割り当てるため、全体的なスパース性レベルを維持しながら、プルーニングによって引き起こされるエラーを削減できます。
提案された方法の利点は、スパース性が非常に高い場合にさらに顕著になります。
さらに、私たちの方法は量子化と互換性があり、LLM のさらなる圧縮を可能にします。

要約(オリジナル)

Various Large Language Models(LLMs) from the Generative Pretrained Transformer~(GPT) family have achieved outstanding performances in a wide range of text generation tasks. However, the enormous model sizes have hindered their practical use in real-world applications due to high inference latency. Therefore, improving the efficiencies of LLMs through quantization, pruning, and other means has been a key issue in LLM studies. In this work, we propose a method based on Hessian sensitivity-aware mixed sparsity pruning to prune LLMs to at least 50\% sparsity without the need of any retraining. It allocates sparsity adaptively based on sensitivity, allowing us to reduce pruning-induced error while maintaining the overall sparsity level. The advantages of the proposed method exhibit even more when the sparsity is extremely high. Furthermore, our method is compatible with quantization, enabling further compression of LLMs.

arxiv情報

著者 Hang Shao,Bei Liu,Yanmin Qian
発行日 2024-01-30 09:04:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク