要約
大規模言語モデル (LLM) は、複数の業界の開発を加速させてきました。
ただし、パラメーターの数が増えると、ストレージとコンピューティングの負担が大きくなり、パラメーターを削減して展開を容易にするためのモデル圧縮技術を検討することが不可欠になります。
我々は、類似チャネルの共有重みの概念に基づいたLLM圧縮方式であるSWSCを提案します。
K-Means クラスタリング アルゴリズムを使用してモデルの重みをチャネルごとにクラスタリングし、それぞれの内部で類似性の高いベクトルを持つクラスタを生成します。
各クラスターからの代表的なベクトルが選択されて、クラスター内のすべてのベクトルがほぼ置き換えられ、モデルの重みパラメーターの数が大幅に削減されます。
ただし、大まかな修復はモデルの性能にダメージを与えることは避けられません。
この問題に取り組むために、圧縮の前後で重み誤差値に対して特異値分解を実行し、より大きな特異値とそれに対応する特異ベクトルを保持して精度を補正します。
実験結果は、私たちの方法が低精度条件下でも圧縮LLMのパフォーマンスを効果的に保証できることを示しています。
要約(オリジナル)
Large language models (LLMs) have spurred development in multiple industries. However, the growing number of their parameters brings substantial storage and computing burdens, making it essential to explore model compression techniques for parameter reduction and easier deployment. We propose SWSC, an LLM compression method based on the concept of Shared Weight for Similar Channel. It uses the K-Means clustering algorithm to cluster model weights channel-by-channel, generating clusters with highly similar vectors within each. A representative vector from each cluster is selected to approximately replace all vectors in the cluster, significantly reducing the number of model weight parameters. However, approximate restoration will inevitably cause damage to the performance of the model. To tackle this issue, we perform singular value decomposition on the weight error values before and after compression and retain the larger singular values and their corresponding singular vectors to compensate for the accuracy. The experimental results show that our method can effectively ensure the performance of the compressed LLM even under low-precision conditions.
arxiv情報
著者 | Binrui Zeng,Yongtao Tang,Xiaodong Liu,Xiaopeng Li |
発行日 | 2025-01-15 07:36:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google