RPTQ: Reorder-based Post-training Quantization for Large Language Models

要約

大規模言語モデル (LLM) は優れたパフォーマンスを実証していますが、メモリ使用量が多いため、その展開には課題が伴います。
この問題は量子化によって軽減できます。
この論文では、LLM でのアクティベーションを量子化する際の課題は、単に外れ値の存在だけではなく、チャネル全体の範囲の変化によって生じていることを特定しました。
この課題に対処するために、リオーダーベースのアプローチを利用する RPTQ と呼ばれる量子化方法を導入します。
RPTQ は、チャネルを再配置し、クラスター内で量子化することにより、チャネル間の距離の差の影響を効果的に軽減します。
並べ替え操作のオーバーヘッドを最小限に抑えるために、並べ替え操作を層ノルム操作と線形層の重みに融合します。
私たちの実験では、RPTQ は LLM で 3 ビット アクティベーションを初めて利用することで大きな進歩を遂げ、その結果メモリ使用量が大幅に削減されました。
たとえば、OPT-175b を量子化すると、メモリ消費量を最大 80% 削減できます。

要約(オリジナル)

Large-scale language models (LLMs) have demonstrated impressive performance, but their deployment presents challenges due to their significant memory usage. This issue can be alleviated through quantization. In this paper, we identify that the challenge in quantizing activations in LLMs arises from varying ranges across channels, rather than solely the presence of outliers. To address this challenge, we introduce a quantization method called RPTQ, which utilizes a reorder-based approach. By rearranging the channels and quantizing them in clusters, RPTQ effectively mitigates the impact of range differences between channels. To minimize the overhead of the reorder operation, we fuse it into the layer norm operation and weights in linear layers. In our experiments, RPTQ achieved a significant breakthrough by utilizing 3-bit activation in LLMs for the first time, resulting in a substantial reduction in memory usage. For instance, quantizing OPT-175b can lead to a memory consumption reduction of up to 80%.

arxiv情報

著者 Zhihang Yuan,Lin Niu,Jiawei Liu,Wenyu Liu,Xinggang Wang,Yuzhang Shang,Guangyu Sun,Qiang Wu,Jiaxiang Wu,Bingzhe Wu
発行日 2023-05-17 10:07:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク