GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

要約

GPT または OPT として知られるジェネレーティブな事前トレーニング済み Transformer モデルは、複雑な言語モデリング タスク全体で画期的なパフォーマンスを発揮するだけでなく、非常に高い計算コストとストレージ コストによっても際立っています。
具体的には、サイズが非常に大きいため、大規模で高精度の GPT モデルの推論でさえ、複数の高性能 GPU が必要になる場合があり、そのようなモデルの使いやすさが制限されます。
モデルの圧縮によってこのプレッシャーを軽減する新しい研究が行われていますが、既存の圧縮技術の適用性とパフォーマンスは、GPT モデルの規模と複雑さによって制限されています。
この論文では、この課題に対処し、GPTQ を提案します。GPTQ は、高精度で高効率の近似二次情報に基づく新しいワンショット重み量子化方法です。
具体的には、GPTQ は約 4 GPU 時間で 1,750 億のパラメーターを使用して GPT モデルを量子化し、ビット幅を重みあたり 3 または 4 ビットに削減し、圧縮されていないベースラインと比べて精度の低下はごくわずかです。
私たちの方法は、以前に提案されたワンショット量子化方法と比較して圧縮ゲインを 2 倍以上にし、精度を維持して、生成的推論のために単一の GPU 内で 1,750 億パラメーターのモデルを初めて実行できるようにしました。
さらに、重みが 2 ビットまたは 3 値量子化レベルに量子化される極端な量子化領域でも、この方法が妥当な精度を提供できることも示します。
これらの改善は、ハイエンド GPU (NVIDIA A100) を使用する場合は約 3.25 倍、より費用対効果の高い GPU (NVIDIA A6000) を使用する場合は 4.5 倍の、FP16 を超えるエンドツーエンドの推論速度向上に活用できることを実験的に示しています。
実装は https://github.com/IST-DASLab/gptq で入手できます。

要約(オリジナル)

Generative Pre-trained Transformer models, known as GPT or OPT, set themselves apart through breakthrough performance across complex language modelling tasks, but also by their extremely high computational and storage costs. Specifically, due to their massive size, even inference for large, highly-accurate GPT models may require multiple performant GPUs, which limits the usability of such models. While there is emerging work on relieving this pressure via model compression, the applicability and performance of existing compression techniques is limited by the scale and complexity of GPT models. In this paper, we address this challenge, and propose GPTQ, a new one-shot weight quantization method based on approximate second-order information, that is both highly-accurate and highly-efficient. Specifically, GPTQ can quantize GPT models with 175 billion parameters in approximately four GPU hours, reducing the bitwidth down to 3 or 4 bits per weight, with negligible accuracy degradation relative to the uncompressed baseline. Our method more than doubles the compression gains relative to previously-proposed one-shot quantization methods, preserving accuracy, allowing us for the first time to execute an 175 billion-parameter model inside a single GPU for generative inference. Moreover, we also show that our method can still provide reasonable accuracy in the extreme quantization regime, in which weights are quantized to 2-bit or even ternary quantization levels. We show experimentally that these improvements can be leveraged for end-to-end inference speedups over FP16, of around 3.25x when using high-end GPUs (NVIDIA A100) and 4.5x when using more cost-effective ones (NVIDIA A6000). The implementation is available at https://github.com/IST-DASLab/gptq.

arxiv情報

著者 Elias Frantar,Saleh Ashkboos,Torsten Hoefler,Dan Alistarh
発行日 2023-03-22 13:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク