Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment

要約

大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算上のボトルネックを生む。我々は、最大70%のスパース性で微調整タスクの完全な精度回復を達成する、高精度かつスパースなLLMの基礎版を作成する新しいアプローチを紹介する。我々は、SparseGPTワンショットプルーニング手法と、SlimPajamaデータセットのサブセットとThe StackデータセットのPythonサブセットを混合したデータセットに対するこれらのモデルのスパース事前学習を組み合わせることで、LLaMA-2 7Bモデルに対してこれを達成する。Cerebras CS-3チップ上で、理論スケーリングに近いスパース性による学習高速化を示す。さらに、Neural MagicのDeepSparseエンジンを利用することで、CPUで最大3倍、Neural Magicのnm-vllmエンジンを利用することで、GPUで最大1.7倍の推論高速化を実現した。上記の利得はスパース性だけで実現されるため、量子化を追加利用することでさらなる利得を得ることができる。具体的には、スパース量子化されたLLaMAモデルに対して、CPU上で最大8.6倍の高速化を示しています。これらの結果を、チャット、命令追跡、コード生成、算術推論、要約など、様々な困難なタスクで実証し、その一般性を証明する。この研究は、精度を犠牲にすることなく、より小さく高速なLLMを迅速に作成する道を開くものである。

要約(オリジナル)

Large language models (LLMs) have revolutionized Natural Language Processing (NLP), but their size creates computational bottlenecks. We introduce a novel approach to create accurate, sparse foundational versions of performant LLMs that achieve full accuracy recovery for fine-tuning tasks at up to 70% sparsity. We achieve this for the LLaMA-2 7B model by combining the SparseGPT one-shot pruning method and sparse pretraining of those models on a subset of the SlimPajama dataset mixed with a Python subset of The Stack dataset. We exhibit training acceleration due to sparsity on Cerebras CS-3 chips that closely matches theoretical scaling. In addition, we establish inference acceleration of up to 3x on CPUs by utilizing Neural Magic’s DeepSparse engine and 1.7x on GPUs through Neural Magic’s nm-vllm engine. The above gains are realized via sparsity alone, thus enabling further gains through additional use of quantization. Specifically, we show a total speedup on CPUs for sparse-quantized LLaMA models of up to 8.6x. We demonstrate these results across diverse, challenging tasks, including chat, instruction following, code generation, arithmetic reasoning, and summarization to prove their generality. This work paves the way for rapidly creating smaller and faster LLMs without sacrificing accuracy.

arxiv情報

著者 Abhinav Agarwalla,Abhay Gupta,Alexandre Marques,Shubhra Pandit,Michael Goin,Eldar Kurtic,Kevin Leong,Tuan Nguyen,Mahmoud Salem,Dan Alistarh,Sean Lie,Mark Kurtz
発行日 2024-05-06 16:03:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク