Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models

要約

大規模言語モデル (LLM) は強力な機能を提供しますが、かなりの計算コストがかかるため、効率的な圧縮技術の必要性が高まります。
この研究では、モデル サイズの削減、ダウンストリーム タスクのパフォーマンス、およびキャリブレーション データの役割の間のトレードオフに焦点を当て、一般的な圧縮方法 (Magnitude Pruning、SparseGPT、および Wanda) が LLaMA-2-7B モデルに及ぼす影響を評価します。
私たちの調査結果では、SparseGPT と Wanda は 50% のスパース性でもパープレキシティを維持しているものの、下流のタスクでは大幅な低下が見られ、唯一の評価指標としてパープレキシティが不適切であることが明らかになりました。
これに対処するために、圧縮後のモデル動作の微妙な変化を捉える、より包括的なメトリクスとして Jensen-Shannon (JS) Divergence を導入します。
さらに、タスク固有のキャリブレーション データは、一般的なキャリブレーション データと比較して、圧縮モデルの下流のパフォーマンスを大幅に向上させることを実証します。
この研究は、LLM 圧縮の複雑さと実際のアプリケーションへの影響を完全に理解するために、多様な評価基準と慎重なキャリブレーション データの選択の必要性を強調しています。

要約(オリジナル)

Large language models (LLMs) offer powerful capabilities but incur substantial computational costs, driving the need for efficient compression techniques. This study evaluates the impact of popular compression methods – Magnitude Pruning, SparseGPT, and Wanda – on the LLaMA-2-7B model, focusing on the trade-offs between model size reduction, downstream task performance, and the role of calibration data. Our findings reveal that while SparseGPT and Wanda preserve perplexity even at 50% sparsity, they suffer significant degradation on downstream tasks, highlighting the inadequacy of perplexity as the sole evaluation metric. To address this, we introduce Jensen-Shannon (JS) Divergence as a more comprehensive metric that captures nuanced changes in model behavior post-compression. We further demonstrate that task-specific calibration data significantly enhances the downstream performance of compressed models compared to general calibration data. This research underscores the necessity for diverse evaluation metrics and careful calibration data selection to fully understand the complexities of LLM compression and its implications for practical applications.

arxiv情報

著者 Bishwash Khanal,Jeffery M. Capone
発行日 2024-09-17 14:34:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク