要約
大規模な言語モデルの時代では、パラメータのサイズが大きいため、展開に大きな課題が生じます。
普及している圧縮技術である量子化は、この問題に取り組むための主流の手法として浮上しており、主に 2 つのレシピ W8A8 と W4A16 (つまり、そのようなビット幅での重みとアクティベーション) を中心としています。
この研究では、2 つのレシピ両方の利点を組み合わせた、利用可能なオープンソース LLM 用の新しい W4A8 ポストトレーニング量子化方法を提案します。
したがって、4 ビットの重み量子化による I/O 利用の利点と、8 ビットの行列計算による高速化を活用できます。
それにもかかわらず、W4A8 は悪名高いパフォーマンスの低下に直面しています。
解決策として、ほとんどの扱いにくい層に対して新しい対数等化を特徴とする層ごとの活性化量子化戦略を導入し、それらをきめ細かい重み量子化と組み合わせます。
ホイッスルやベルがなければ、さらなる微調整の必要性がなくなり、BLOOM、LLaMA、および LLaMA-2 の標準ベンチマークで最先端の W4A8 量子化パフォーマンスが得られます。
W4A8 量子化は、大規模な言語モデルの展開で実現可能であり、広範な現実世界へのアプリケーションを促進することが確認されています。
要約(オリジナル)
In the era of large-scale language models, the substantial parameter size poses significant challenges for deployment. Being a prevalent compression technique, quantization has emerged as the mainstream practice to tackle this issue, which is mainly centered on two recipes W8A8 and W4A16 (i.e. weights and activations in such bit widths). In this study, we propose a novel W4A8 post-training quantization method for the available open-sourced LLMs, which combines the advantages of both two recipes. Therefore, we can leverage the benefit in the I/O utilization of 4-bit weight quantization and the acceleration due to 8-bit matrix computation. Nevertheless, the W4A8 faces notorious performance degradation. As a remedy, we involve layerwise activation quantization strategies which feature a novel logarithmic equalization for most intractable layers, and we combine them with fine-grained weight quantization. Without whistles and bells, we eliminate the necessity for further fine-tuning and obtain the state-of-the-art W4A8 quantized performance on BLOOM, LLaMA, and LLaMA-2 on standard benchmarks. We confirm that the W4A8 quantization is achievable for the deployment of large language models, fostering their wide-spreading real-world applications.
arxiv情報
著者 | Qingyuan Li,Yifan Zhang,Liang Li,Peng Yao,Bo Zhang,Xiangxiang Chu,Yerui Sun,Li Du,Yuchen Xie |
発行日 | 2023-08-30 12:18:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google