要約
この論文では、理論的な視点を通じて、大規模な言語モデル(LLMS)の層ごとのスパース率を決定するという課題に対処します。
具体的には、既存のLLMSスパース化方法で「$ \ textbf {再構成エラー爆発} $」の重要な問題を特定します。
これは、以前の層からのエラーが後続の層で伝播して増幅するスパース化プロセス全体の再構築エラーの累積効果を指します。
その結果、全体的な再構成エラーが大幅に増加し、モデルのパフォーマンスが大幅に分解されます。
理論分析を通じて、この問題を軽減する層ごとのスパース割り当てへのシンプルで効果的なアプローチを導き出します。
私たちの方法は、単調に増加する算術進行を使用し、複数の層のスパース速度を決定するプロセスを減らして、単一の共通の差分計の決定に減少します。
驚くべきことに、これにより、数回の試行で最適な層ごとのスパース率を識別できます。
私たちの理論分析と実験結果の両方は、このスパース性割り当てスキームが最適に近いことを示しています。
広範な実験は、私たちの方法がさまざまなアーキテクチャにわたるスパースLLMのパフォーマンスを大幅に改善し、既存のレイヤーごとのスパース性方法を上回ることを示しています。
さらに、さまざまな圧縮技術のパフォーマンスを向上させ、視覚モデルとマルチモーダルモデルに適用できます。
特に、私たちの方法は、ワンダを介して得られた70 $ \%$のスパースllama2-7bモデルの52.10の困惑を達成し、平均ゼロショット精度を10.50 $ \%$ $で改善し、2.63 $ \ Times $のスピードアップを提供します。
それぞれ2.23 $ \ times $ cpuとgpu。
要約(オリジナル)
In this paper, we address the challenge of determining the layer-wise sparsity rates of large language models (LLMs) through a theoretical perspective. Specifically, we identify a critical issue of ”$\textbf{reconstruction error explosion}$” in existing LLMs sparsification methods. This refers to the cumulative effect of reconstruction errors throughout the sparsification process, where errors from earlier layers propagate and amplify in subsequent layers. As a result, the overall reconstruction error increases significantly, leading to a substantial degradation in model performance. Through theoretical analysis, we derive a simple yet effective approach to layer-wise sparsity allocation that mitigates this issue. Our method uses a monotonically increasing arithmetic progression, reducing the process of determining sparsity rates for multiple layers to the determination of a single common difference hyperparameter. Remarkably, this allows for the optimal layer-wise sparsity rates to be identified with just a few trials. Both our theoretical analysis and experimental results demonstrate that this sparsity allocation scheme is near optimal. Extensive experiments show that our method significantly improves the performance of sparse LLMs across various architectures, outperforming existing layer-wise sparsity methods. Furthermore, it enhances the performance of various compression techniques and is applicable to vision and multimodal models. Notably, our method achieves a reduction of 52.10 in perplexity for the 70$\%$ sparse LLaMA2-7B model obtained via Wanda, improves average zero-shot accuracy by 10.50$\%$, and delivers speedups of 2.63$\times$ and 2.23$\times$ on CPU and GPU, respectively.
arxiv情報
著者 | Weizhong Huang,Yuxin Zhang,Xiawu Zheng,Fei Chao,Rongrong Ji |
発行日 | 2025-02-20 17:51:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google