Pruning Large Language Models with Semi-Structural Adaptive Sparse Training

要約

さまざまな複雑なタスクにわたる大規模言語モデル (LLM) の大きな成功は、LLM の相当な規模に大きく依存しています。LLM は大量のメモリを消費するため、モデルの展開中に課題が生じます。
最近、ワンショット プルーニング手法を使用して LLM を圧縮することが数多くの研究で試みられています。
ただし、これらの方法では、複雑な言語理解タスクで大幅なパフォーマンスの低下が発生することが多く、LLM での枝刈りの実現可能性に疑問が生じます。
この問題に対処するために、Adaptive Sparse Trainer (AST) と呼ばれる、再トレーニングによる半構造化スパース モデルの枝刈りパイプラインを提案します。
以前のワンショット プルーニング手法とは異なり、AST はマスクされた重みに減衰を適用することで、密なモデルを疎なモデルに段階的に変換し、トレーニング プロセス全体を通じてモデルがマスクを適応的に選択できるようにします。
さらに、密なモデルを教師として蒸留を使用すると、疎なモデルが局所最適に陥るのを防ぎ、収束を加速できることがわかります。
さらに、メモリ フットプリントの増加を最小限に抑えながらモデルのパフォーマンスをさらに向上させるために、適切に初期化された特別なパラメーターを組み込みます。
AST はモデルのパフォーマンスを大幅に向上させ、高密度モデルのレベルに近づきます。
LLaMA2-7B モデルに適用すると、AST は、事前トレーニング トークンの 0.4% 未満を使用して、複数のゼロショット タスクにわたって、密モデルと半構造化疎モデル間のゼロショット精度の差を 1.12% に削減します。
私たちの研究は、半構造化された疎大規模言語モデルの導入の実現可能性を実証し、既存の量子化技術と組み合わせて高圧縮モデルを実現する新しい方法を紹介します。

要約(オリジナル)

The tremendous success of Large Language Models (LLMs) across various complex tasks relies heavily on their substantial scale, which raises challenges during model deployment due to their large memory consumption. Recently, numerous studies have attempted to compress LLMs using one-shot pruning methods. However, these methods often experience considerable performance degradation on complex language understanding tasks, calling into question the feasibility of pruning in LLMs. To address this issue, we propose a pruning pipeline for semi-structured sparse models via retraining, termed Adaptive Sparse Trainer (AST). Unlike previous one-shot pruning methods, AST incrementally transforms dense models into sparse ones by applying decay to masked weights while allowing the model to adaptively select masks throughout the training process. Furthermore, we observe that using distillation with a dense model as the teacher can prevent the sparse model from falling into local optima and accelerate convergence. In addition, we incorporate extra well-initialized parameters to further enhance model performance with minimal increase in memory footprint. AST can significantly enhance model performance, approaching the level of dense models. When applied to the LLaMA2-7B model, AST reduces the zero-shot accuracy gap between dense and semi-structured sparse models to 1.12% across multiple zero-shot tasks, utilizing less than 0.4% of the pretraining tokens. Our work demonstrates the feasibility of deploying semi-structured sparse large language models and introduces a novel method for achieving highly compressed models when combined with existing quantization techniques.

arxiv情報

著者 Weiyu Huang,Yuezhou Hu,Guohao Jian,Jun Zhu,Jianfei Chen
発行日 2024-08-26 13:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク