LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models

要約

大規模言語モデル (LLM) は、困難なタスクにおいて優れたパフォーマンスを示しますが、多くの場合、大量のメモリと計算リソースを必要とします。
LLM のパラメータスケールを削減する方法が研究のホットスポットになっています。
この研究では、Transformer のマルチヘッド セルフ アテンション (MHA) サブレイヤーが顕著な低ランク構造を示すのに対し、フィードフォワード ネットワーク (FFN) サブレイヤーはそうでないという重要な観察を行いました。
この点に関して、低ランク行列近似と構造化プルーニング (LoRAP) を有機的に組み合わせた混合圧縮モデルを設計します。
MHAサブレイヤに対しては、低ランク特性を強化するために入力活性化重み付き特異値分解法を提案する。
さらに、MHA サブレイヤーの重み行列が異なる低ランク次数を持っていることを発見しました。
そこで、低ランク度の不一致に応じた新しいパラメータ割り当て方式を考案した。
FFN サブレイヤーについては、勾配のない構造化チャネル プルーニング手法を提案します。
枝刈り中に、最も重要度の低い 1% のパラメータが実際にはモデルのパフォーマンスに重要な役割を果たしているという興味深い発見が得られました。
ゼロショットパープレキシティとゼロショットタスク分類に関する広範な評価により、私たちの提案が複数の圧縮率の下で以前の構造化圧縮の競合製品よりも優れていることが示されました。

要約(オリジナル)

Large language models (LLMs) show excellent performance in difficult tasks, but they often require massive memories and computational resources. How to reduce the parameter scale of LLMs has become research hotspots. In this study, we make an important observation that the multi-head self-attention (MHA) sub-layer of Transformer exhibits noticeable low-rank structure, while the feed-forward network (FFN) sub-layer does not. With this regard, we design a mixed compression model, which organically combines Low-Rank matrix approximation And structured Pruning (LoRAP). For the MHA sub-layer, we propose an input activation weighted singular value decomposition method to strengthen the low-rank characteristic. Furthermore, we discover that the weight matrices in MHA sub-layer have different low-rank degrees. Thus, a novel parameter allocation scheme according to the discrepancy of low-rank degrees is devised. For the FFN sub-layer, we propose a gradient-free structured channel pruning method. During the pruning, we get an interesting finding that the least important 1% of parameter actually play a vital role in model performance. Extensive evaluations on zero-shot perplexity and zero-shot task classification indicate that our proposal is superior to previous structured compression rivals under multiple compression ratios.

arxiv情報

著者 Guangyan Li,Yongqiang Tang,Wensheng Zhang
発行日 2024-04-15 11:53:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク