OWQ: Lessons learned from activation outliers for weight quantization in large language models

要約

数千億のパラメータを持つ大規模言語モデル (LLM) は、タスク固有の微調整を必要とせずに、単純なプロンプト チューニングと少数のショットの例を使用して、さまざまな言語タスクにわたって優れた結果を示します。
ただし、その巨大なサイズにより、たとえ推論であっても複数のサーバーグレードの GPU が必要となり、大きなコスト障壁が生じます。
この制限に対処するために、品質の低下を最小限に抑えた重みの新しいトレーニング後の量子化方法を導入します。
活性化の外れ値は活性化の量子化において問題があることが知られていますが、私たちの理論分析では、活性化の外れ値を考慮することで重みの量子化誤差に寄与する要因を特定できることが示唆されています。
我々は、脆弱な重みを特定し、それらに高精度を割り当てる、外れ値認識重み量子化 (OWQ) と呼ばれる革新的な PTQ スキームを提案します。
私たちの広範な実験により、OWQ によって生成された 3.01 ビット モデルが OPTQ によって生成された 4 ビット モデルと同等の品質を示すことが実証されました。

要約(オリジナル)

Large language models (LLMs) with hundreds of billions of parameters show impressive results across various language tasks using simple prompt tuning and few-shot examples, without the need for task-specific fine-tuning. However, their enormous size requires multiple server-grade GPUs even for inference, creating a significant cost barrier. To address this limitation, we introduce a novel post-training quantization method for weights with minimal quality degradation. While activation outliers are known to be problematic in activation quantization, our theoretical analysis suggests that we can identify factors contributing to weight quantization errors by considering activation outliers. We propose an innovative PTQ scheme called outlier-aware weight quantization (OWQ), which identifies vulnerable weights and allocates high-precision to them. Our extensive experiments demonstrate that the 3.01-bit models produced by OWQ exhibit comparable quality to the 4-bit models generated by OPTQ.

arxiv情報

著者 Changhun Lee,Jungyu Jin,Taesu Kim,Hyungjun Kim,Eunhyeok Park
発行日 2023-06-13 07:31:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク