MINI-LLM: Memory-Efficient Structured Pruning for Large Language Models

要約

大規模言語モデル (LLM) のサイズが劇的に増大するにつれて、これらのモデルの圧縮と高速化が増加する傾向にあります。
これまでの研究では、ニューラル ネットワークの圧縮、特に中規模のネットワークの枝刈りにおける重要度スコアリングにおける勾配の有用性が強調されてきました。
ただし、バックプロパゲーションによる勾配の計算には大量のメモリ要件が必要となるため、LLM 枝刈りをガイドする際の勾配の利用が妨げられます。
結果として、LLM のほとんどの枝刈り戦略は、重みの大きさ、または大きさと活性化の組み合わせなど、勾配のない基準に依存しています。
この論文では、LLM の枝刈りに特徴マップの感度を活用するために、大きさ、活性化、勾配を適切に統合するハイブリッド枝刈り基準を考案します。
メモリ要件の障壁を克服するために、前方パスのみを使用して勾配を推定します。
これに基づいて、非クリティカルチャネルとマルチアテンションヘッドを削除するためのLLM(MINI-LLM)のメモリ効率構造化プルーニング手順を提案します。
実験結果は、MINI-LLM が GPU メモリ フットプリントを維持しながら、さまざまなダウンストリーム タスク (分類、複数選択、生成) にわたって LLaMA、BLOOM、OPT の 3 つの LLM における既存の勾配なし手法よりも MINI-LLM のパフォーマンスが優れていることを示しています。
グラデーションフリーの方法に似ています。

要約(オリジナル)

As Large Language Models (LLMs) grow dramatically in size, there is an increasing trend in compressing and speeding up these models. Previous studies have highlighted the usefulness of gradients for importance scoring in neural network compressing, especially in pruning medium-size networks. However, the substantial memory requirements involved in calculating gradients with backpropagation impede the utilization of gradients in guiding LLM pruning. As a result, most pruning strategies for LLMs rely on gradient-free criteria, such as weight magnitudes or a mix of magnitudes and activations. In this paper, we devise a hybrid pruning criterion, which appropriately integrates magnitude, activation, and gradient to capitalize on feature map sensitivity for pruning LLMs. To overcome memory requirement barriers, we estimate gradients using only forward passes. Based on this, we propose a Memory-effIcieNt structured prunIng procedure for LLMs (MINI-LLM) to remove no-critical channels and multi-attention heads. Experimental results demonstrate the superior performance of MINI-LLM over existing gradient-free methods on three LLMs: LLaMA, BLOOM, and OPT across various downstream tasks (classification, multiple-choice, and generation), while MINI-LLM maintains a GPU memory footprint akin to gradient-free methods.

arxiv情報

著者 Hongrong Cheng,Miao Zhang,Javen Qinfeng Shi
発行日 2024-07-16 12:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク