要約
小言語モデル(SLM)は、エッジデバイスでの幅広いアプリケーションのため、学界と産業の両方からかなりの注目を集めています。
強力なパフォーマンスでSLMSを取得するために、従来のアプローチはモデルをゼロから事前トレーニングするか、かなりの計算コストを負担するか、既存の大手言語モデル(LLMS)を圧縮/プルンするため、トレーニング前と比較してパフォーマンスが低下して低下します。
。
この論文では、構造化された剪定とモデルトレーニングの両方を含む加速方法のファミリーを調査します。
1)層ごとの適応剪定(Adapt-Pruner)はLLMSで非常に効果的であり、既存の剪定技術よりも大幅な改善が得られます。
漸進的なプルーニングは、トレーニングで剪定を介入し、一度にニューロンのごく一部($ \ sim $ 5%)のみを除去することにより、非自明のパフォーマンスの向上をもたらします。
LLAMA-3.1-8Bの実験結果は、Adapt-Prunerが、LLM-Pruner、Flap、SliceGptなどの従来の剪定方法よりも平均1%〜7%であることを示しています。
さらに、Adapt-Prunerは、MMLUベンチマークでMobilellm-125mから600mのパフォーマンスを回復し、その大規模なカウンターパートからの剪定により200 $ \ Times $のトークンが少なく、複数のベンチマークでラマ-3.2-1Bを上回る新しい1Bモデルを発見します。
要約(オリジナル)
Small language models (SLMs) have attracted considerable attention from both academia and industry due to their broad range of applications in edge devices. To obtain SLMs with strong performance, conventional approaches either pre-train the models from scratch, which incurs substantial computational costs, or compress/prune existing large language models (LLMs), which results in performance drops and falls short in comparison to pre-training. In this paper, we investigate the family of acceleration methods that involve both structured pruning and model training. We found 1) layer-wise adaptive pruning (Adapt-Pruner) is extremely effective in LLMs and yields significant improvements over existing pruning techniques, 2) adaptive pruning equipped with further training leads to models comparable to those pre-training from scratch, 3) incremental pruning brings non-trivial performance gain by interleaving pruning with training and only removing a small portion of neurons ($\sim$5%) at a time. Experimental results on LLaMA-3.1-8B demonstrate that Adapt-Pruner outperforms conventional pruning methods, such as LLM-Pruner, FLAP, and SliceGPT, by an average of 1%-7% in accuracy on commonsense benchmarks. Additionally, Adapt-Pruner restores the performance of MobileLLM-125M to 600M on the MMLU benchmark with 200$\times$ fewer tokens via pruning from its larger counterparts, and discovers a new 1B model that surpasses LLaMA-3.2-1B in multiple benchmarks.
arxiv情報
著者 | Boyao Wang,Rui Pan,Shizhe Diao,Xingyuan Pan,Jipeng Zhang,Renjie Pi,Tong Zhang |
発行日 | 2025-02-05 18:57:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google