要約
大規模言語モデル (LLM) は、言語関連のタスクにおいて優れた熟練度を示しています。
ただし、その導入には大量のメモリとストレージ要件があるため、重大な課題が生じます。
この課題に対処するために、重みのみの量子化が有望な解決策として浮上しました。
以前の研究では、四捨五入による微調整によりパフォーマンスが向上することが示されています。
この研究では、符号付き勾配降下法 (SignSGD) を利用して、わずか 200 ステップ内で丸め値と重みクリッピングを最適化し、量子化対応トレーニング (QAT) とトレーニング後量子化 (PTQ) の両方の長所を組み合わせた方法である SignRound を紹介します。
。
SignRound は、低いチューニング コストを維持し、追加の推論オーバーヘッドを導入することなく、2 ~ 4 ビットにわたる最近の方法と比較して優れた結果を達成します。
たとえば、SignRound により、2 ビットで 6.91\% から 33.22\% の絶対平均精度が向上しました。
さらに、さまざまな最近のモデルに対する堅牢な一般化を実証し、ほとんどのシナリオで 4 ビットでほぼ損失のない量子化を実現します。
ソース コードは \url{https://github.com/intel/auto-round} で公開されています。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated exceptional proficiency in language-related tasks. However, their deployment presents significant challenges due to their substantial memory and storage requirements. To address this challenge, weight-only quantization has emerged as a promising solution. Previous research has indicated that fine-tuning through up and down rounding can enhance performance. In this study, we introduce SignRound, a method that utilizes signed gradient descent (SignSGD) to optimize rounding values and weight clipping within just 200 steps, combining the strengths of both Quantization-Aware Training (QAT) and Post-Training Quantization (PTQ). SignRound achieves outstanding results compared to recent methods across 2 to 4 bits, while maintaining low tuning costs and without introducing any additional inference overhead. For instance, SignRound led to absolute average accuracy improvements ranging from 6.91\% to 33.22\% at 2 bits. Furthermore, it demonstrates robust generalization to various recent models and achieves near-lossless quantization in most scenarios at 4 bits. The source code is publicly available at \url{https://github.com/intel/auto-round}.
arxiv情報
著者 | Wenhua Cheng,Weiwei Zhang,Haihao Shen,Yiyang Cai,Xin He,Kaokao Lv,Yi Liu |
発行日 | 2024-05-17 09:12:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google