要約
自然言語処理 (NLP) における大規模言語モデル (LLM) の急速な普及により、パフォーマンスを犠牲にすることなく、メモリに制約のあるデバイス上での効率的な展開を可能にする技術に対する重要なニーズが生じています。
重要度スコアに基づいてモデル ブロックを選択的にプルーニングし、それらを低パラメーター置換戦略で置き換える LLM をプルーニングする方法を紹介します。
具体的には、モデルの枝刈りされていない対応部分とブロック固有の低ランク アダプターを活用する重み共有メカニズムを使用して、枝刈りされた各ブロックを置き換える原則に基づいたメトリックを提案します。
さらに、出力特徴の正規化と低ランク SVD 再構成に基づいて構築されたアダプター初期化スキームを使用して、これらの置換ブロックの学習を促進します。
実証的評価では、既存の方法と比較してパフォーマンスが大幅に向上し、圧縮率 30% の場合は 5/6 ベンチマークで、圧縮率 40% の場合は 6/6 ベンチマークで最先端のパフォーマンスを達成することが実証されています。
また、私たちのアプローチがより小さなモデルを拡張し、最小限の追加パラメータコストで拡張トレーニングのわずか ~0.3% のトークンを使用して 6/6 ベンチマークのパフォーマンスを向上させることができることも実証します。
要約(オリジナル)
The rapid proliferation of large language models (LLMs) in natural language processing (NLP) has created a critical need for techniques that enable efficient deployment on memory-constrained devices without compromising performance. We present a method to prune LLMs that selectively prunes model blocks based on an importance score and replaces them with a low-parameter replacement strategy. Specifically, we propose a principled metric to replace each pruned block using a weight-sharing mechanism that leverages unpruned counterparts from the model and block-specific low-rank adapters. Furthermore, we facilitate the learning of these replacement blocks with output feature normalization and an adapter initialization scheme built on low-rank SVD reconstructions. Empirical evaluations demonstrate substantial performance gains over existing methods, achieving state-of-the-art performance on 5/6 benchmarks for a compression rate of 30% and 6/6 benchmarks for a compression rate of 40%. We also demonstrate that our approach can extend smaller models, boosting performance on 6/6 benchmarks using only ~0.3% tokens of extended training with minimal additional parameter costs.
arxiv情報
著者 | James Seale Smith,Chi-Heng Lin,Shikhar Tuli,Haris Jeelani,Shangqian Gao,Yilin Shen,Hongxia Jin,Yen-Chang Hsu |
発行日 | 2025-01-24 18:46:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google