RPTQ: Reorder-based Post-training Quantization for Large Language Models

要約

タイトル:大規模言語モデルのためのリオーダーベースの事後トレーニング量子化(RPTQ)

要約:
– 大規模言語モデル(LLMs)は、様々なタスクで優れた性能を発揮するが、その展開には巨大なモデルサイズのための課題がある。
– この論文では、LLMsの量子化の主な課題が、異なるチャネル間のアクティベーション範囲の違いという問題にあることを特定した。
– 著者らは、リオーダーベースの量子化手法「RPTQ」を提案し、LLMsのアクティベーションの量子化の問題に対処した。
– RPTQは、アクティベーション内のチャネルを並べ替え、クラスターで量子化することにより、チャネル間の範囲の違いの影響を減らす。
– さらに、明示的なリオーダリングを避けることで、ストレージと計算のオーバーヘッドを削減することができる。
– このアプローチを実装することで、著者らは、LLMモデルを3ビットアクティベーションに初めてプッシュするという大きなブレークスルーを達成した。

要約(オリジナル)

Large-scale language models (LLMs) have demonstrated outstanding performance on various tasks, but their deployment poses challenges due to their enormous model size. In this paper, we identify that the main challenge in quantizing LLMs stems from the different activation ranges between the channels, rather than just the issue of outliers.We propose a novel reorder-based quantization approach, RPTQ, that addresses the issue of quantizing the activations of LLMs. RPTQ rearranges the channels in the activations and then quantizing them in clusters, thereby reducing the impact of range difference of channels. In addition, we reduce the storage and computation overhead by avoiding explicit reordering. By implementing this approach, we achieved a significant breakthrough by pushing LLM models to 3 bit activation for the first time.

arxiv情報

著者 Zhihang Yuan,Lin Niu,Jiawei Liu,Wenyu Liu,Xinggang Wang,Yuzhang Shang,Guangyu Sun,Qiang Wu,Jiaxiang Wu,Bingzhe Wu
発行日 2023-04-03 15:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク