要約
バッチの方法で適用される大規模な言語モデル(LLM)のオンラインで動的な構造化された剪定のための新しいフレームワークであるプローブプルーニング(PP)を紹介します。
PPは、すべてのサンプルとトークンがモデルの出力に等しく寄与しているわけではないという洞察を活用し、各バッチのごく一部を調査することで重要な重みを効果的に識別し、さまざまなバッチに合わせた動的剪定を可能にします。
これは、3つの主要な段階で構成されています:プロービング、履歴に基づいた剪定、および完全な推論。
調査段階では、PPは、残りの重要性に基づいて、いくつかのモデルレイヤーを先に実行するために、残留の重要性に基づいて、小さなが重要な状態のセットを選択します。
歴史に基づいた剪定段階で、PPは調査状態を歴史的状態と戦略的に統合します。
その後、統合状態とPPの重要性スコアに基づいて構造的にプルーン化されます。これは、パフォーマンスを維持する際の各重量チャネルの重要性を評価するために特別に開発されたメトリックです。
最終段階では、残りの重みで完全な推論が行われます。
PPの主な利点は、追加のニューラルネットワークモジュールや微調整を必要とせずに動作するため、既存のモデルとの互換性です。
LLAMA-2/3およびOPTモデルでのPPの包括的な評価により、FLOPS-CANのわずか1.5%を最小限に抑えることでさえ、LLMSの構造化された剪定の効率を大幅に向上させることが明らかになりました。
たとえば、Wikitext2でLlama-2-7bで評価されると、PPは、40%の剪定比で最先端の方法と比較して、ランタイム削減の単位あたりのパフォーマンス分解の2.56倍低い比率を達成します。
私たちのコードは、https://github.com/qi-le1/probe_pruningで入手できます。
要約(オリジナル)
We introduce Probe Pruning (PP), a novel framework for online, dynamic, structured pruning of Large Language Models (LLMs) applied in a batch-wise manner. PP leverages the insight that not all samples and tokens contribute equally to the model’s output, and probing a small portion of each batch effectively identifies crucial weights, enabling tailored dynamic pruning for different batches. It comprises three main stages: probing, history-informed pruning, and full inference. In the probing stage, PP selects a small yet crucial set of hidden states, based on residual importance, to run a few model layers ahead. During the history-informed pruning stage, PP strategically integrates the probing states with historical states. Subsequently, it structurally prunes weights based on the integrated states and the PP importance score, a metric developed specifically to assess the importance of each weight channel in maintaining performance. In the final stage, full inference is conducted on the remaining weights. A major advantage of PP is its compatibility with existing models, as it operates without requiring additional neural network modules or fine-tuning. Comprehensive evaluations of PP on LLaMA-2/3 and OPT models reveal that even minimal probing-using just 1.5% of FLOPs-can substantially enhance the efficiency of structured pruning of LLMs. For instance, when evaluated on LLaMA-2-7B with WikiText2, PP achieves a 2.56 times lower ratio of performance degradation per unit of runtime reduction compared to the state-of-the-art method at a 40% pruning ratio. Our code is available at https://github.com/Qi-Le1/Probe_Pruning.
arxiv情報
著者 | Qi Le,Enmao Diao,Ziyan Wang,Xinran Wang,Jie Ding,Li Yang,Ali Anwar |
発行日 | 2025-02-21 17:41:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google