Cherry on Top: Parameter Heterogeneity and Quantization in Large Language Models

要約

この論文では、大規模言語モデル (LLM) におけるパラメーターの不均一性の現象を明らかにします。
「チェリー」パラメータの小さなサブセットがモデルのパフォーマンスに不釣り合いに大きな影響を与える一方、大部分のパラメータは最小限の影響しかないことがわかりました。
この不均一性は、さまざまなモデル ファミリ、スケール、タイプにわたって広く見られることがわかっています。
この観察を動機として、混合精度パラメータの最適化を統合する新しい量子化手法である CherryQ を提案します。
CherryQ は、重要なチェリー パラメータを高精度で識別して保存し、残りのパラメータを低精度に積極的に量子化します。
広範な実験により、CherryQ の有効性が実証されています。
CherryQ は、複雑さとダウンストリーム タスクのパフォーマンスの点で、既存の量子化アプローチよりも優れています。
特に、当社の 3 ビット量子化 Vicuna-1.5 は、16 ビットの同等品と比較して優れたパフォーマンスを示します。

要約(オリジナル)

This paper reveals the phenomenon of parameter heterogeneity in large language models (LLMs). We find that a small subset of ‘cherry’ parameters exhibit a disproportionately large influence on model performance, while the vast majority of parameters have minimal impact. This heterogeneity is found to be prevalent across different model families, scales, and types. Motivated by this observation, we propose CherryQ, a novel quantization method that unifies the optimization of mixed-precision parameters. CherryQ identifies and preserves the critical cherry parameters in high precision while aggressively quantizing the remaining parameters to low precision. Extensive experiments demonstrate the effectiveness of CherryQ. CherryQ outperforms existing quantization approaches in terms of perplexity and downstream task performance. Notably, our 3-bit quantized Vicuna-1.5 exhibits competitive performance compared to their 16-bit counterparts.

arxiv情報

著者 Wanyun Cui,Qianle Wang
発行日 2024-11-29 15:49:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク