要約
GPTQv2は、大規模変換器アーキテクチャを圧縮するための新しい微調整不要の量子化手法である。各層を独立に較正する従来のGPTQ法とは異なり、量子化された層の出力を常に全精度モデルの正確な出力に一致させることで、非対称較正と呼ぶ方式を実現する。このような方式は、前の層で蓄積された量子化誤差を効果的に減らすことができる。我々は最適脳圧縮を用いてこの問題を解析し、近い形の解を導出する。この新しい解は、量子化誤差だけでなく、蓄積された非対称誤差も明示的に最小化する。さらに、解の計算を並列化するために、チャネル並列化、ニューロン分解、行列融合のためのコレスキー再定式化など、様々な技術を利用する。その結果、GPTQv2は実装が容易で、GPTQより20行多いコードを使用するだけで、低ビット量子化での性能が向上しました。驚くべきことに、1つのGPUで405Bの言語変換器と、90%の事前学習Imagenet精度を達成したランクファーストビジョントランスフォーマーEVA-02を量子化することができます。コードはgithub.com/Intelligent-Computing-Lab-Yale/GPTQv2にあります。
要約(オリジナル)
We introduce GPTQv2, a novel finetuning-free quantization method for compressing large-scale transformer architectures. Unlike the previous GPTQ method, which independently calibrates each layer, we always match the quantized layer’s output to the exact output in the full-precision model, resulting in a scheme that we call asymmetric calibration. Such a scheme can effectively reduce the quantization error accumulated in previous layers. We analyze this problem using optimal brain compression to derive a close-formed solution. The new solution explicitly minimizes the quantization error as well as the accumulated asymmetry error. Furthermore, we utilize various techniques to parallelize the solution calculation, including channel parallelization, neuron decomposition, and Cholesky reformulation for matrix fusion. As a result, GPTQv2 is easy to implement, simply using 20 more lines of code than GPTQ but improving its performance under low-bit quantization. Remarkably, on a single GPU, we quantize a 405B language transformer as well as EVA-02 the rank first vision transformer that achieves 90% pretraining Imagenet accuracy. Code is available at github.com/Intelligent-Computing-Lab-Yale/GPTQv2.
arxiv情報
著者 | Yuhang Li,Ruokai Yin,Donghyun Lee,Shiting Xiao,Priyadarshini Panda |
発行日 | 2025-04-03 15:30:43+00:00 |
arxivサイト | arxiv_id(pdf) |