Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models

要約

大規模言語モデル (LLM) の規模が非常に大きいため、従来の圧縮手法を直接適用することは非現実的であることが判明しています。
最小限の勾配更新であっても、特に消費者向けハードウェアでは、計算量の要求が課題となります。
この論文では、低次数モデリングに基づく LLM のパラメトリックかつ実用的な圧縮のための革新的なアプローチを紹介します。これには、特徴空間内での低ランク分解と重み空間での再パラメータ化が必要です。
特に、この圧縮技術はレイヤーごとに動作するため、GPU デバイスの必要性がなくなり、メモリと時間の両方の厳しい制約内で 10 億規模のモデルの圧縮が可能になります。
私たちの方法は、行列分解を活用することでモデル圧縮が大幅に進歩しており、一般的な最先端の構造化枝刈り方法と比較して優れた有効性を示しています。

要約(オリジナル)

Due to the substantial scale of Large Language Models (LLMs), the direct application of conventional compression methodologies proves impractical. The computational demands associated with even minimal gradient updates present challenges, particularly on consumer-grade hardware. This paper introduces an innovative approach for the parametric and practical compression of LLMs based on reduced order modelling, which entails low-rank decomposition within the feature space and re-parameterization in the weight space. Notably, this compression technique operates in a layer-wise manner, obviating the need for a GPU device and enabling the compression of billion-scale models within stringent constraints of both memory and time. Our method represents a significant advancement in model compression by leveraging matrix decomposition, demonstrating superior efficacy compared to the prevailing state-of-the-art structured pruning method.

arxiv情報

著者 Arnav Chavan,Nahush Lele,Deepak Gupta
発行日 2023-12-12 07:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク