要約
量子化は、大小の言語モデルの費用対効果の高い展開のための有望なソリューションとして注目を集めています。
ただし、ほとんどの以前の研究は、困惑または基本的な知識タスクに限定されており、Llama-3.3などの最近のモデルの包括的な評価がありません。
この論文では、13のデータセットに4つの量子化方法を適用して、1Bから405Bパラメーターにまたがる命令チューニングモデルの包括的な評価を実施します。
私たちの調査結果は、(1)量子化されたモデルが一般に小さなFP16ベースラインを上回っていることを明らかにしていますが、しばしば指導のフォローと幻覚の検出に苦労しています。
(2)FP8は、タスク全体で最も堅牢なオプションとして一貫して現れ、AWQは体重のみの量子化でGPTQを上回る傾向があります。
(3)小さいモデルは、4ビット量子化で深刻な精度低下に苦しむ可能性がありますが、70Bスケールモデルは安定した性能を維持します。
(4)特に、\ textIT {hard}タスクは常に最大の精度損失を経験するとは限らず、量子化がタスクの難易度と単に相関するのではなく、モデルの固有の弱点を拡大することを示しています。
(5)LLMベースの裁判官(MTベンチ)は、コーディングおよびSTEMタスクの大幅なパフォーマンスの低下を強調していますが、推論は時々改善される可能性があります。
要約(オリジナル)
Quantization has gained attention as a promising solution for the cost-effective deployment of large and small language models. However, most prior work has been limited to perplexity or basic knowledge tasks and lacks a comprehensive evaluation of recent models like Llama-3.3. In this paper, we conduct a comprehensive evaluation of instruction-tuned models spanning 1B to 405B parameters, applying four quantization methods across 13 datasets. Our findings reveal that (1) quantized models generally surpass smaller FP16 baselines, yet they often struggle with instruction-following and hallucination detection; (2) FP8 consistently emerges as the most robust option across tasks, and AWQ tends to outperform GPTQ in weight-only quantization; (3) smaller models can suffer severe accuracy drops at 4-bit quantization, while 70B-scale models maintain stable performance; (4) notably, \textit{hard} tasks do not always experience the largest accuracy losses, indicating that quantization magnifies a model’s inherent weaknesses rather than simply correlating with task difficulty; and (5) an LLM-based judge (MT-Bench) highlights significant performance declines in coding and STEM tasks, though reasoning may sometimes improve.
arxiv情報
著者 | Jemin Lee,Sihyeong Park,Jinse Kwon,Jihun Oh,Yongin Kwon |
発行日 | 2025-05-08 08:51:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google