LoSparse: Structured Compression of Large Language Models based on Low-Rank and Sparse Approximation

要約

Transformer モデルは、さまざまな自然言語タスクで目覚ましい結果を達成しましたが、多くの場合、法外に大きくなり、大量のメモリと計算リソースを必要とします。
これらのモデルのサイズと複雑さを軽減するために、低ランク行列と疎行列の和によって重み行列を近似する新しいモデル圧縮技術である LoSparse (低ランクおよび疎行列) を提案します。
私たちの方法は、低ランク近似と枝刈りの両方の利点を組み合わせながら、それらの制限を回避します。
低ランク近似はニューロン内のコヒーレントで表現力豊かな部分を圧縮しますが、枝刈りはニューロン内のインコヒーレントで非表現力のある部分を削除します。
枝刈りによって低ランク近似の多様性が強化され、低ランク近似によって枝刈りによって表現力豊かなニューロンが過剰に失われることが防止されます。
自然言語理解、質問応答、自然言語生成タスクに関する手法を評価します。
これが既存の圧縮方法よりも大幅に優れていることを示します。

要約(オリジナル)

Transformer models have achieved remarkable results in various natural language tasks, but they are often prohibitively large, requiring massive memories and computational resources. To reduce the size and complexity of these models, we propose LoSparse (Low-Rank and Sparse approximation), a novel model compression technique that approximates a weight matrix by the sum of a low-rank matrix and a sparse matrix. Our method combines the advantages of both low-rank approximations and pruning, while avoiding their limitations. Low-rank approximation compresses the coherent and expressive parts in neurons, while pruning removes the incoherent and non-expressive parts in neurons. Pruning enhances the diversity of low-rank approximations, and low-rank approximation prevents pruning from losing too many expressive neurons. We evaluate our method on natural language understanding, question answering, and natural language generation tasks. We show that it significantly outperforms existing compression methods.

arxiv情報

著者 Yixiao Li,Yifan Yu,Qingru Zhang,Chen Liang,Pengcheng He,Weizhu Chen,Tuo Zhao
発行日 2023-06-26 15:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク