MoDeGPT: Modular Decomposition for Large Language Model Compression

要約

大規模言語モデル(LLM)は、様々なタスクにおいて卓越した性能を発揮することで、人工知能の状況を塗り替えてきた。しかし、LLMは膨大な計算量を必要とするため、限られたリソースしかないデバイスへの導入は困難である。最近、低ランク行列技術を使った圧縮手法が有望視されていますが、これらはしばしば精度の低下を招いたり、パラメータや推論レイテンシに大きなオーバーヘッドをもたらします。本論文では、上記の欠点を解決しつつ、回復の微調整を必要としない新しい構造化圧縮フレームワークである゙textbf{Mo}dular゙textbf{De}composition(MoDeGPT)を紹介する。MoDeGPTは、Transformerブロックを行列対で構成されるモジュールに分割し、モジュールレベルの出力を再構成することで隠れ次元を削減する。MoDeGPTは、3つの確立された行列分解アルゴリズム(Nystr’om近似、CR分解、SVD)を利用する理論的枠組みに基づいて開発され、それらを再定義されたトランスフォーマー・モジュールに適用します。我々の包括的な実験によれば、MoDeGPTは後方伝搬なしで、勾配情報に依存する以前の構造化圧縮手法と同等かそれ以上であり、13Bのモデルを圧縮する際の計算コストを98%節約できる。また、勾配情報に依存しない構造化圧縮法は、これまでの構造化圧縮法と同等かそれ以上である。さらに、圧縮は1つのGPUで数時間以内に行うことができ、推論スループットを最大46%向上させます。

要約(オリジナル)

Large Language Models (LLMs) have reshaped the landscape of artificial intelligence by demonstrating exceptional performance across various tasks. However, substantial computational requirements make their deployment challenging on devices with limited resources. Recently, compression methods using low-rank matrix techniques have shown promise, yet these often lead to degraded accuracy or introduce significant overhead in parameters and inference latency. This paper introduces \textbf{Mo}dular \textbf{De}composition (MoDeGPT), a novel structured compression framework that does not need recovery fine-tuning while resolving the above drawbacks. MoDeGPT partitions the Transformer block into modules comprised of matrix pairs and reduces the hidden dimensions via reconstructing the module-level outputs. MoDeGPT is developed based on a theoretical framework that utilizes three well-established matrix decomposition algorithms — Nystr\’om approximation, CR decomposition, and SVD — and applies them to our redefined transformer modules. Our comprehensive experiments show MoDeGPT, without backward propagation, matches or surpasses previous structured compression methods that rely on gradient information, and saves 98% of compute costs on compressing a 13B model. On \textsc{Llama}-2/3 and OPT models, MoDeGPT maintains 90-95% zero-shot performance with 25-30% compression rates. Moreover, the compression can be done on a single GPU within a few hours and increases the inference throughput by up to 46%.

arxiv情報

著者 Chi-Heng Lin,Shangqian Gao,James Seale Smith,Abhishek Patel,Shikhar Tuli,Yilin Shen,Hongxia Jin,Yen-Chang Hsu
発行日 2025-05-02 15:34:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: (Primary), cs.CL, cs.LG, I.2.7, stat.ML パーマリンク