要約
本稿では、大規模言語モデル(LLM)におけるパラメータの不均一性の現象を明らかにする。我々は、少数の「チェリー」パラメータがモデルの性能に不釣り合いなほど大きな影響を与える一方で、大多数のパラメータはほとんど影響を与えないことを発見した。この不均一性は、異なるモデルファミリー、スケール、タイプに共通している。この観察に動機づけられ、我々は、混合精度パラメータの最適化を統合する新しい量子化手法であるCherryQを提案します。CherryQは、重要なチェリーパラメータを高精度で特定し保存する一方で、残りのパラメータを積極的に低精度に量子化します。広範な実験がCherryQの有効性を実証しています。CherryQは、既存の量子化アプローチを、複雑さと下流タスクの性能の点で凌駕しています。特に、3ビット量子化Vicuna-1.5は、16ビット量子化Vicuna-1.5と比較して遜色のない性能を示しました。これらの結果は、CherryQがパラメータの不均一性を利用してLLMを効率的に展開できる可能性を示しています。
要約(オリジナル)
This paper reveals the phenomenon of parameter heterogeneity in large language models (LLMs). We find that a small subset of “cherry” parameters exhibit a disproportionately large influence on model performance, while the vast majority of parameters have minimal impact. This heterogeneity is found to be prevalent across different model families, scales, and types. Motivated by this observation, we propose CherryQ, a novel quantization method that unifies the optimization of mixed-precision parameters. CherryQ identifies and preserves the critical cherry parameters in high precision while aggressively quantizing the remaining parameters to low precision. Extensive experiments demonstrate the effectiveness of CherryQ. CherryQ outperforms existing quantization approaches in terms of perplexity and downstream task performance. Notably, our 3-bit quantized Vicuna-1.5 exhibits competitive performance compared to their 16-bit counterparts. These findings highlight the potential of CherryQ for enabling efficient deployment of LLMs by taking advantage of parameter heterogeneity.
arxiv情報
| 著者 | Wanyun Cui,Qianle Wang |
| 発行日 | 2024-04-03 16:16:31+00:00 |
| arxivサイト | arxiv_id(pdf) |