RPTQ: Reorder-based Post-training Quantization for Large Language Models

要約

タイトル:大規模言語モデルの再順序ベースポストトレーニング量子化(RPTQ)

要約:大規模言語モデル(LLM)は、さまざまなタスクで優れたパフォーマンスを発揮していますが、その展開は、膨大なモデルサイズのために課題を提起しています。本論文では、LLMを量子化する際の主な課題は、外れ値の問題だけでなく、チャネル間の異なるアクティベーション範囲から生じることを特定します。提案される新しい量子化アプローチ、RPTQは、LLMのアクティベーションを量子化する問題に対処することができます。RPTQは、アクティベーション内のチャネルを再順序配置し、クラスターに量子化して、チャネル間の範囲の差異の影響を軽減する方法を提供します。また、明示的な再順序配置を回避することで、ストレージと計算のオーバーヘッドを削減します。このアプローチの実装により、LLMモデルを初めて3ビットアクティベーションまで推進することに成功しました。

– LLMは優れたパフォーマンスを発揮するが、膨大なモデルサイズである。
– LLMを量子化する際の主な課題は、外れ値の問題だけでなく、チャネル間の異なるアクティベーション範囲から生じることを特定する。
– RPTQは、アクティベーション内のチャネルを再順序配置し、クラスターに量子化することで、チャネル間の範囲の差異の影響を軽減する。
– 再順序配置を回避することで、ストレージと計算のオーバーヘッドを削減することができる。
– RPTQのアプローチの実装により、LLMモデルを初めて3ビットアクティベーションまで推進することに成功した。

要約(オリジナル)

Large-scale language models (LLMs) have demonstrated outstanding performance on various tasks, but their deployment poses challenges due to their enormous model size. In this paper, we identify that the main challenge in quantizing LLMs stems from the different activation ranges between the channels, rather than just the issue of outliers.We propose a novel reorder-based quantization approach, RPTQ, that addresses the issue of quantizing the activations of LLMs. RPTQ rearranges the channels in the activations and then quantizing them in clusters, thereby reducing the impact of range difference of channels. In addition, we reduce the storage and computation overhead by avoiding explicit reordering. By implementing this approach, we achieved a significant breakthrough by pushing LLM models to 3 bit activation for the first time.

arxiv情報

著者 Zhihang Yuan,Lin Niu,Jiawei Liu,Wenyu Liu,Xinggang Wang,Yuzhang Shang,Guangyu Sun,Qiang Wu,Jiaxiang Wu,Bingzhe Wu
発行日 2023-04-25 06:29:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク