要約
大規模な言語モデル(LLM)の展開における指数関数的な成長により、計算コストとメモリコストを削減するための効率的なモデル圧縮技術が必要になりました。
剪定と量子化は約束を示していますが、それらの潜在能力の組み合わせはほとんど未踏のままです。
このホワイトペーパーでは、関節圧縮と、剪定と量子化を戦略的に組み合わせることで、単一メソッドアプローチと比較して優れたパフォーマンスと圧縮率がどのように生じるかを調べます。
LLMのパフォーマンスを正確に評価する際の課題を認識して、以前の評価フレームワークの重要な制限に対処し、モデル圧縮とセマンティック保存の間のトレードオフを定量化する新しいメトリックであるセマンティック保持圧縮圧縮率(SRCR)を導入し、プルーニング定量化構成の最適化を促進します。
実験は、推奨される組み合わせが、同じ理論的圧縮率で同等の量子化のみのモデルと比較して、平均して20%のパフォーマンス増加を達成することを示しています。
要約(オリジナル)
The exponential growth in Large Language Model (LLM) deployment has intensified the need for efficient model compression techniques to reduce computational and memory costs. While pruning and quantization have shown promise, their combined potential remains largely unexplored. In this paper, we examine joint compression and how strategically combining pruning and quantization could yield superior performance-to-compression ratios compared to single-method approaches. Recognizing the challenges in accurately assessing LLM performance, we address key limitations of previous evaluation frameworks and introduce the Semantic Retention Compression Rate (SrCr), a novel metric that quantifies the trade-off between model compression and semantic preservation, facilitating the optimization of pruning-quantization configurations. Experiments demonstrate that our recommended combination achieves, on average, a 20% performance increase compared to an equivalent quantization-only model at the same theoretical compression rate.
arxiv情報
著者 | Stanislas Laborde,Martin Cousseau,Antoun Yaacoub,Lionel Prevost |
発行日 | 2025-05-12 07:23:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google