RPTQ: Reorder-based Post-training Quantization for Large Language Models

要約

タイトル:「RPTQ:大規模言語モデルの事後トレーニング量子化のためのリオーダーベースアプローチ」

要約:
– 大規模言語モデル(LLM)は、様々なタスクで優れたパフォーマンスを発揮しているが、そのデプロイメントはモデルの巨大なサイズによる課題がある。
– 本論文では、LLMの量子化における主な課題は外れ値の問題だけではなく、チャネル間の異なる活性範囲から生じることを特定している。
– RPTQという新しいリオーダーベースの量子化アプローチを提案し、LLMの活性化を量子化する課題に対処する。RPTQは、活性化中のチャネルを再編成し、クラスターごとに量子化することにより、チャネル間の範囲の差に対処する。
– また、明示的な再順序付けを回避することでストレージと計算のオーバーヘッドを削減する。このアプローチを実装することで、最初のLLMモデルを3ビットの活性化にまで押し上げるという重大な進展を達成した。

要約(オリジナル)

Large-scale language models (LLMs) have demonstrated outstanding performance on various tasks, but their deployment poses challenges due to their enormous model size. In this paper, we identify that the main challenge in quantizing LLMs stems from the different activation ranges between the channels, rather than just the issue of outliers.We propose a novel reorder-based quantization approach, RPTQ, that addresses the issue of quantizing the activations of LLMs. RPTQ rearranges the channels in the activations and then quantizing them in clusters, thereby reducing the impact of range difference of channels. In addition, we reduce the storage and computation overhead by avoiding explicit reordering. By implementing this approach, we achieved a significant breakthrough by pushing LLM models to 3 bit activation for the first time.

arxiv情報

著者 Zhihang Yuan,Lin Niu,Jiawei Liu,Wenyu Liu,Xinggang Wang,Yuzhang Shang,Guangyu Sun,Qiang Wu,Jiaxiang Wu,Bingzhe Wu
発行日 2023-04-06 15:51:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク