Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization

要約

近年、大規模言語モデル (LLM) によって自然言語処理の進歩が推進されています。
それでも、規模が拡大するにつれて計算負荷が増大し、効率とパフォーマンスのバランスが必要になります。
低ランク圧縮は、有望な技術であり、重み行列を 2 つの低ランク行列の積に分解することで、重要でないパラメータを削減します。
しかし、LLM へのその応用は十分に研究されていません。
低ランク圧縮の鍵は、低ランクの因数分解と低ランクの次元の割り当てにあります。
LLM における低ランク圧縮の課題に対処するために、私たちは大規模モデルの低ランク特性に関する実証研究を実施します。
我々はLLMに適した低ランク圧縮方式を提案する。
このアプローチには、プールされた共分散行列による特徴分布の正確な推定と、低ランクの次元を割り当てるためのベイジアン最適化戦略が含まれます。
LLaMA-2 モデルの実験では、同じ圧縮率でモデルのパフォーマンスを維持する点で、私たちの方法が既存の強力な構造化枝刈りおよび低ランク圧縮技術よりも優れていることが実証されています。

要約(オリジナル)

In recent years, large language models (LLMs) have driven advances in natural language processing. Still, their growing scale has increased the computational burden, necessitating a balance between efficiency and performance. Low-rank compression, a promising technique, reduces non-essential parameters by decomposing weight matrices into products of two low-rank matrices. Yet, its application in LLMs has not been extensively studied. The key to low-rank compression lies in low-rank factorization and low-rank dimensions allocation. To address the challenges of low-rank compression in LLMs, we conduct empirical research on the low-rank characteristics of large models. We propose a low-rank compression method suitable for LLMs. This approach involves precise estimation of feature distributions through pooled covariance matrices and a Bayesian optimization strategy for allocating low-rank dimensions. Experiments on the LLaMA-2 models demonstrate that our method outperforms existing strong structured pruning and low-rank compression techniques in maintaining model performance at the same compression ratio.

arxiv情報

著者 Yixin Ji,Yang Xiang,Juntao Li,Wei Chen,Zhongyi Liu,Kehai Chen,Min Zhang
発行日 2024-05-17 08:27:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク