ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language Models

要約

このペーパーでは、大規模言語モデル (LLM) の幅広い採用を促進するための新しいトレーニング後の圧縮パラダイムを紹介します。
私たちは LLM 重みの低ランク分解を詳しく調べ、このタスクの課題が LLM 活性化の分布の分散とさまざまな種類の層間の感度の違いに起因していることを発見しました。
これらの問題に対処するために、アクティベーションを意識した特異値分解 (ASVD) と呼ばれるトレーニング不要のアプローチを提案します。
具体的には、ASVD は、アクティベーション分布に基づいて重み行列を変換することにより、アクティベーションの外れ値を管理します。
この変換により、アクティベーション行列の外れ値が変換された重み行列に吸収されるため、分解精度が向上します。
さらに、異なる LLM 層のさまざまな感度に対処することで、層固有の分解を最適化する効率的な反復キャリブレーション プロセスを提案します。
このように、ASVD はネットワークを 10% ~ 30% 圧縮できます。
セルフ アテンション モジュールでの射影行列の低ランク分解の成功に基づいて、KV キャッシュを圧縮するために ASVD をさらに導入します。
KV アクティベーションのチャネル次元を削減することにより、KV キャッシュのメモリ要件を大幅に削減できます。
ASVD は、トレーニング不要の方法で、パフォーマンスを低下させることなく、KV キャッシュの 50% 削減をさらに達成できます。
コードは補足資料として匿名で入手できます。

要約(オリジナル)

In this paper, we introduce a new post-training compression paradigm for Large Language Models (LLMs) to facilitate their wider adoption. We delve into LLM weight low-rank decomposition, and find that the challenges of this task stem from the distribution variance in the LLM activations and the sensitivity difference among various kinds of layers. To address these issues, we propose a training-free approach called Activation-aware Singular Value Decomposition (ASVD). Specifically, ASVD manages activation outliers by transforming the weight matrix based on the activation distribution. This transformation allows the outliers in the activation matrix to be absorbed into the transformed weight matrix, thereby enhancing decomposition accuracy. Additionally, we propose an efficient iterative calibration process to optimize layer-specific decomposition by addressing the varying sensitivity of different LLM layers. In this way, ASVD can compress a network by 10%-30%. Based on the success of the low-rank decomposition of projection matrices in the self-attention module, we further introduce ASVD to compress the KV cache. By reducing the channel dimension of KV activations, memory requirements for KV cache can be largely reduced. ASVD can further achieve 50% KV cache reductions without performance drop in a training-free manner. Code is anonymously available in supplementary materials.

arxiv情報

著者 Zhihang Yuan,Yuzhang Shang,Yue Song,Qiang Wu,Yan Yan,Guangyu Sun
発行日 2024-10-29 12:28:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク