Compressing Large Language Models by Streamlining the Unimportant Layer

要約

大規模言語モデル (LLM) は、さまざまな自然言語タスクやドメインに広く適用されていますが、その適用性はモデルのパラメーターの数が多いため制限されます。
そのため、小型で高性能なモデルへの注目が高まっています。
この研究では、LLM のさまざまな層が隠れ状態にさまざまな程度の摂動を持っていることを観察し、これにより重要度の低い層を特定できるようになります。
この現象に基づいて、私たちは LLM-Streamline を提案します。これは 2 つの部分で構成されます。レイヤー プルーニングでは、ターゲットのスパース性に応じて、モデル内の重要度が最も低い一連の連続レイヤーを削除します。
もう 1 つはレイヤーの置換です。軽量モデルをトレーニングしてプルーニングされたレイヤーを置き換え、それによってプルーニングによるパフォーマンスの低下を軽減します。
私たちの実験では、多層パーセプトロン (MLP) やトランスフォーマー層などの構造を軽量モデルとして利用し、最終的には単一の MLP がプルーニングされた層に効果的に適合できることを実証します。
包括的な実験により、私たちが提案した手法である LLM-Streamline が、以前の最先端 (SOTA) モデル枝刈り手法よりも優れていることがわかりました。

要約(オリジナル)

Large language models (LLM) have been extensively applied in various natural language tasks and domains, but their applicability is constrained by the large number of parameters of the models. Consequently, there is an increasing emphasis on compact models that exhibit high performance. In this study, we observe that different layers in LLM have varying degrees of perturbation on the hidden states, which allows us to identify less important layers. Based on this phenomenon, we propose LLM-Streamline, which consists of two parts: layer pruning, where we remove a set of consecutive layers with the lowest importance in the model according to the target sparsity; and layer replacement, where we train a lightweight model to substitute the pruned layers, thereby mitigating the performance degradation caused by pruning. In our experiments, we utilize structures such as a multi-layer perceptron (MLP) and a transformer layer as lightweight models and ultimately demonstrate that a single MLP can effectively fit the pruned layers. Comprehensive experiments show that our proposed method, LLM-Streamline, outperforms previous state-of-the-art (SOTA) model pruning methods.

arxiv情報

著者 Xiaodong Chen,Yuxuan Hu,Jing Zhang
発行日 2024-03-31 08:16:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク