Fast and Effective Weight Update for Pruned Large Language Models

要約

大規模言語モデル (LLM) のプルーニングは、そのサイズが非常に大きいため、困難な作業です。
主な困難は、枝刈り後のモデルの微調整です。これは、ウェイトの低下によって失われたパフォーマンスを回復するために必要です。
最近のアプローチでは、微調整を完全に無視して効率的な枝刈り基準に重点を置くか、各層の動作を維持して層ごとの重み更新を試みています。
ただし、レイヤーごとの重みの更新でも LLM にとってコストがかかる可能性があり、以前の研究ではさまざまな近似に頼っていました。
私たちの論文では、Alternating Direction Method of Multipliers (ADMM) に基づいた、プルーニングされたレイヤーの高速かつ効果的な重み更新アルゴリズムを提案します。
シンプルな段階的なプルーニング マスクの選択によりそれをさらに拡張し、幅広い LLM にわたって最先端のプルーニング パフォーマンスを実現します。
コードは https://github.com/fmfi-compbio/admm-pruning で入手できます。

要約(オリジナル)

Pruning large language models (LLMs) is a challenging task due to their enormous size. The primary difficulty is fine-tuning the model after pruning, which is needed to recover the lost performance caused by dropping weights. Recent approaches have either ignored fine-tuning entirely, focusing on efficient pruning criteria, or attempted layer-wise weight updates, preserving the behavior of each layer. However, even layer-wise weight updates can be costly for LLMs, and previous works have resorted to various approximations. In our paper, we propose a fast and effective weight update algorithm for pruned layers based on the Alternating Direction Method of Multipliers (ADMM). We further extend it with a simple gradual pruning mask selection and achieve state-of-the-art pruning performance across a wide range of LLMs. Code is available at https://github.com/fmfi-compbio/admm-pruning.

arxiv情報

著者 Vladimír Boža
発行日 2024-07-22 14:34:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク