Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training

要約

ネットワーク プルーニングは、パフォーマンスへの影響を最小限に抑えながらパラメータのサブセットを削除することで、特定のモデルの計算コストを削減することを目的とした一連の計算手法です。
過去 10 年間を通じて、最も広く使用されている枝刈りパラダイムは枝刈りと再トレーニングに焦点を当ててきましたが、現在では事前トレーニングされたモデルが大量にあり、いずれにせよ再トレーニングするにはコストが高すぎるため、これは不便です。
この論文では、高密度の事前トレーニング済みモデル、つまりその活性化からの機能情報を利用して、活性化の整合性を最大化する疎なモデルを取得します。
それらに対応する密なモデル。
したがって、私たちは、LLM の特定の枝刈りアルゴリズムの上に使用できる \emph{top-up} アルゴリズムである \textsc{NeuroAl} を提案します。これは、ブロック単位および行単位のスパース率を変更して \emph を最大化します。
活性化間の {ニューロン アライメント}。
さらに、既存の方法とは異なり、私たちのアプローチは、ブロック単位および行単位のスパース率に最適なパラメーターを適応的に選択します。
モデルと目的のスパース性 (入力として与えられる) に依存し、 \emph{再トレーニングなし} を必要とします。
4 つの異なる LLM ファミリと 3 つの異なるスパース率でメソッドをテストし、それが最新の最先端技術を常に上回るパフォーマンスを示しています。
コードは https://github.com/eliacunegatti/NeuroAL で入手できます。

要約(オリジナル)

Network pruning is a set of computational techniques that aim to reduce a given model’s computational cost by removing a subset of its parameters while having minimal impact on performance. Throughout the last decade, the most widely used pruning paradigm has focused on pruning and re-training, which nowadays is inconvenient due to the vast amount of pre-trained models, which are in any case too expensive to re-train. In this paper, we exploit functional information from dense pre-trained models, i.e., their activations, to obtain sparse models that maximize the activations’ alignment w.r.t. their corresponding dense models. Hence, we propose \textsc{NeuroAl}, a \emph{top-up} algorithm that can be used on top of any given pruning algorithm for LLMs, that modifies the block-wise and row-wise sparsity ratios to maximize the \emph{neuron alignment} among activations. Moreover, differently from existing methods, our approach adaptively selects the best parameters for the block-wise and row-wise sparsity ratios w.r.t. to the model and the desired sparsity (given as input), and requires \emph{no re-training}. We test our method on 4 different LLM families and 3 different sparsity ratios, showing how it consistently outperforms the latest state-of-the-art techniques. The code is available at https://github.com/eliacunegatti/NeuroAL.

arxiv情報

著者 Elia Cunegatti,Leonardo Lucio Custode,Giovanni Iacca
発行日 2024-11-11 15:30:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク