要約
ネットワーク プルーニングは、パフォーマンスへの影響を最小限に抑えながらパラメータのサブセットを削除することで、特定のモデルの計算コストを削減することを目的とした計算手法に焦点を当てています。
過去 10 年間を通じて、最も広く使用されている枝刈りパラダイムは枝刈りと再トレーニングでしたが、現在では事前トレーニングされたモデルが大量にあり、いずれにしても再トレーニングするにはコストが高すぎるため、これは不便です。
この論文では、高密度の事前トレーニング済みモデル、つまりその活性化からの機能情報を利用して、活性化の整合性を最大化する疎なモデルを取得します。
それらに対応する密なモデル。
したがって、私たちは、LLM の任意のプルーニング アルゴリズムの上に使用できる \emph{top-up} アルゴリズムである \textsc{NeuroAL} を提案します。これは、密なブロックと行の両方からの情報を利用してブロック単位と行単位のスパース性を変更します。
モデルとそのスパース バージョンを使用して、活性化間の \emph{ニューロンの配置} を最大化します。
既存の方法とは異なり、私たちのアプローチは、ブロック単位および行単位のスパース率に最適なハイパーパラメーターを適応的に選択します。
モデルと必要なスパース性が異なり、 \emph{再トレーニングなし} が必要です。
私たちは、4 つの LLM ファミリ、3 つのスパース率、および 10 の言語タスク (3 つの言語モデリングと 7 つのゼロショット データセット) を組み合わせた 276 のケースにわたってメソッドをテストし、それが最新のメソッドよりも常に優れていることを示しています。
パフォーマンスと実行時間のトレードオフ。
コードは \href{https://github.com/eliacunegatti/NeuroAL}{https://github.com/eliacunegatti/NeuroAL} で入手できます。
要約(オリジナル)
Network pruning focuses on computational techniques that aim to reduce a given model’s computational cost by removing a subset of its parameters while having minimal impact on performance. Throughout the last decade, the most widely used pruning paradigm has been pruning and re-training, which nowadays is inconvenient due to the vast amount of pre-trained models, which are in any case too expensive to re-train. In this paper, we exploit functional information from dense pre-trained models, i.e., their activations, to obtain sparse models that maximize the activations’ alignment w.r.t. their corresponding dense models. Hence, we propose \textsc{NeuroAL}, a \emph{top-up} algorithm that can be used on top of any given pruning algorithm for LLMs, which modifies the block-wise and row-wise sparsity exploiting information from both the dense model and its sparse version to maximize the \emph{neuron alignment} among activations. Differently from existing methods, our approach adaptively selects the best hyperparameters for the block-wise and row-wise sparsity ratios w.r.t. the model and the desired sparsity, and requires \emph{no re-training}. We test our method over 276 cases combining four LLM families, three sparsity ratios, and ten language tasks (three language modeling and seven zero-shot datasets), showing how it consistently outperforms the latest state-of-the-art methods in terms of performance-runtime trade-off. The code is available at \href{https://github.com/eliacunegatti/NeuroAL}{https://github.com/eliacunegatti/NeuroAL}.
arxiv情報
著者 | Elia Cunegatti,Leonardo Lucio Custode,Giovanni Iacca |
発行日 | 2025-01-09 11:11:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google