要約
大規模言語モデル (LLM) のプルーニングは、そのサイズが非常に大きいため、困難な作業です。
主な困難は、枝刈り後のモデルの微調整です。これは、ウェイトの低下によって失われたパフォーマンスを回復するために必要です。
最近のアプローチでは、微調整を完全に無視して効率的な枝刈り基準に重点を置くか、各層の動作を維持して層ごとの重み更新を試みています。
ただし、レイヤーごとの重みの更新でも LLM にとってコストがかかる可能性があり、以前の研究ではさまざまな近似に頼っていました。
私たちの論文では、Alternating Direction Method of Multipliers (ADMM) に基づいた、プルーニングされたレイヤーの高速かつ効果的な重み更新アルゴリズムを提案します。
シンプルな段階的なプルーニング マスクの選択によりそれをさらに拡張し、幅広い LLM にわたって最先端のプルーニング パフォーマンスを実現します。
コードは https://github.com/fmfi-compbio/admm-pruning で入手できます。
要約(オリジナル)
Pruning large language models (LLMs) is a challenging task due to their enormous size. The primary difficulty is fine-tuning the model after pruning, which is needed to recover the lost performance caused by dropping weights. Recent approaches have either ignored fine-tuning entirely, focusing on efficient pruning criteria, or attempted layer-wise weight updates, preserving the behavior of each layer. However, even layer-wise weight updates can be costly for LLMs, and previous works have resorted to various approximations. In our paper, we propose a fast and effective weight update algorithm for pruned layers based on the Alternating Direction Method of Multipliers (ADMM). We further extend it with a simple gradual pruning mask selection and achieve state-of-the-art pruning performance across a wide range of LLMs. Code is available at https://github.com/fmfi-compbio/admm-pruning.
arxiv情報
著者 | Vladimír Boža |
発行日 | 2024-07-22 14:34:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google