要約
プルーニングは、トレーニング済みの大規模言語モデル (LLM) を圧縮するための重要な戦略であり、パフォーマンスを犠牲にすることなく大幅なメモリの節約と計算の高速化を目指します。
しかし、既存の枝刈り手法では、多くの場合、数十億規模の LLM に対して非効率的な再トレーニングが必要になったり、脳外科医の最適なフレームワークなどのヒューリスティック手法に依存したりするため、パフォーマンスが低下します。
このペーパーでは、凸最適化モデルとアルゴリズムに基づいた最初のポストトレーニング プルーナーである FISTAPruner を紹介します。
具体的には、スパース性を誘導し、最適化に FISTA ソルバーを利用するために $\ell_1$ ノルムを組み込んだ凸最適化モデルを提案します。
FISTAPruner には層内累積エラー修正メカニズムが組み込まれており、並列プルーニングをサポートしています。
OPT、LLaMA、LLaMA-2、LLaMA-3 などのモデルで、非構造化および 2:4 の半構造化スパーシティ下で 125M ~ 70B のパラメーターを使用して FISTAPruner を包括的に評価し、既存の最先端の手法を上回る優れたパフォーマンスを実証します。
さまざまな言語ベンチマーク。
要約(オリジナル)
Pruning is a critical strategy for compressing trained large language models (LLMs), aiming at substantial memory conservation and computational acceleration without compromising performance. However, existing pruning methods often necessitate inefficient retraining for billion-scale LLMs or rely on heuristic methods such as the optimal brain surgeon framework, which degrade performance. In this paper, we introduce FISTAPruner, the first post-training pruner based on convex optimization models and algorithms. Specifically, we propose a convex optimization model incorporating $\ell_1$ norm to induce sparsity and utilize the FISTA solver for optimization. FISTAPruner incorporates an intra-layer cumulative error correction mechanism and supports parallel pruning. We comprehensively evaluate FISTAPruner on models such as OPT, LLaMA, LLaMA-2, and LLaMA-3 with 125M to 70B parameters under unstructured and 2:4 semi-structured sparsity, demonstrating superior performance over existing state-of-the-art methods across various language benchmarks.
arxiv情報
著者 | Pengxiang Zhao,Hanyu Hu,Ping Li,Yi Zheng,Zhefeng Wang,Xiaoming Yuan |
発行日 | 2024-08-07 12:33:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google