Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs

要約

大規模言語モデル (LLM) は、言語関連のタスクにおいて優れた熟練度を示しています。
ただし、その導入には大量のメモリとストレージ要件があるため、重大な課題が生じます。
この課題に対処するために、重みのみの量子化が有望な解決策として浮上しました。
以前の研究では、四捨五入による微調整によりパフォーマンスが向上することが示されています。
この研究では、符号付き勾配降下法 (SignSGD) を利用して、わずか 200 ステップ内で丸め値と重みクリッピングを最適化し、量子化対応トレーニング (QAT) とトレーニング後量子化 (PTQ) の両方の長所を組み合わせた方法である SignRound を紹介します。

SignRound は、低いチューニング コストを維持し、追加の推論オーバーヘッドを導入することなく、2 ~ 4 ビットにわたる最近の方法と比較して優れた結果を達成します。
たとえば、SignRound により、2 ビットで 6.91\% から 33.22\% の絶対平均精度が向上しました。
さらに、さまざまな最近のモデルに対する堅牢な一般化を実証し、ほとんどのシナリオで 4 ビットでほぼ損失のない量子化を実現します。
ソース コードは \url{https://github.com/intel/auto-round} で公開されています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated exceptional proficiency in language-related tasks. However, their deployment presents significant challenges due to their substantial memory and storage requirements. To address this challenge, weight-only quantization has emerged as a promising solution. Previous research has indicated that fine-tuning through up and down rounding can enhance performance. In this study, we introduce SignRound, a method that utilizes signed gradient descent (SignSGD) to optimize rounding values and weight clipping within just 200 steps, combining the strengths of both Quantization-Aware Training (QAT) and Post-Training Quantization (PTQ). SignRound achieves outstanding results compared to recent methods across 2 to 4 bits, while maintaining low tuning costs and without introducing any additional inference overhead. For instance, SignRound led to absolute average accuracy improvements ranging from 6.91\% to 33.22\% at 2 bits. Furthermore, it demonstrates robust generalization to various recent models and achieves near-lossless quantization in most scenarios at 4 bits. The source code is publicly available at \url{https://github.com/intel/auto-round}.

arxiv情報

著者 Wenhua Cheng,Weiwei Zhang,Haihao Shen,Yiyang Cai,Xin He,Kaokao Lv,Yi Liu
発行日 2024-05-17 09:12:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク