Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training

要約

Network Pruningは、パラメーターのサブセットを削除しながらパフォーマンスへの影響を最小限に抑えることにより、特定のモデルの計算コストを削減することを目的とする計算手法に焦点を当てています。
過去10年間で、最も広く使用されているプルーニングパラダイムは剪定と再訓練でした。これは、いずれにせよ、再訓練するには高すぎる事前に訓練されたモデルのために不便です。
このホワイトペーパーでは、密集した事前訓練を受けたモデル、つまりそれらのアクティベーションから機能情報を活用して、アクティベーションのアライメントW.R.Tを最大化するスパースモデルを取得します。
それらの対応する密なモデル。
したがって、LLMSの特定の剪定アルゴリズムの上に使用できる\ textSc {neuroal}、\ emphing {top-up}アルゴリズムを提案します。
モデルとそのスパースバージョンは、アクティベーションの間で\ emphononアライメント}を最大化します。
既存の方法とは異なる方法で、私たちのアプローチは、ブロックごとのスパース比率W.R.T.に最適なハイパーパラメーターを適応的に選択します。
モデルと望ましいスパース性、および\ emph {no retaining}が必要です。
4つのLLMファミリ、3つのスパース率、および10の言語タスク(3つの言語モデリングと7つのゼロショットデータセット)を組み合わせた276を超えるケースをテストし、最新の最新の方法を一貫して上回る方法を示します。
パフォーマンスラーチムトレードオフ。
このコードは、\ href {https://github.com/eliacunegatti/neuroal} {https://github.com/eliacunegatti/neuroal}で入手できます。

要約(オリジナル)

Network pruning focuses on computational techniques that aim to reduce a given model’s computational cost by removing a subset of its parameters while having minimal impact on performance. Throughout the last decade, the most widely used pruning paradigm has been pruning and re-training, which nowadays is inconvenient due to the vast amount of pre-trained models, which are in any case too expensive to re-train. In this paper, we exploit functional information from dense pre-trained models, i.e., their activations, to obtain sparse models that maximize the activations’ alignment w.r.t. their corresponding dense models. Hence, we propose \textsc{NeuroAL}, a \emph{top-up} algorithm that can be used on top of any given pruning algorithm for LLMs, which modifies the block-wise and row-wise sparsity exploiting information from both the dense model and its sparse version to maximize the \emph{neuron alignment} among activations. Differently from existing methods, our approach adaptively selects the best hyperparameters for the block-wise and row-wise sparsity ratios w.r.t. the model and the desired sparsity, and requires \emph{no re-training}. We test our method over 276 cases combining four LLM families, three sparsity ratios, and ten language tasks (three language modeling and seven zero-shot datasets), showing how it consistently outperforms the latest state-of-the-art methods in terms of performance-runtime trade-off. The code is available at \href{https://github.com/eliacunegatti/NeuroAL}{https://github.com/eliacunegatti/NeuroAL}.

arxiv情報

著者 Elia Cunegatti,Leonardo Lucio Custode,Giovanni Iacca
発行日 2025-01-30 15:24:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク