Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs


大規模言語モデル (LLM) は、言語関連のタスクを実行する際に優れた機能を備えていることが証明されています。
この問題に対応して、重みのみの量子化、特に 3 ビットと 4 ビットの重みのみの量子化が、最も実行可能な解決策の 1 つとして浮上しました。
SignRound と呼ばれる私たちの手法には、符号付き勾配降下法を使用した軽量のブロック単位の調整が含まれており、400 ステップ以内で優れた結果を達成することができます。
SignRound は、最近接への丸め (RTN) の確立されたベースラインを上回り、追加の推論オーバーヘッドを導入することなく、最近の方法と見事に競合します。
ソース コードは間もなく https://github.com/intel/neural-compressor で公開される予定です。


Large Language Models (LLMs) have proven their exceptional capabilities in performing language-related tasks. However, their deployment poses significant challenges due to their considerable memory and storage requirements. In response to this issue, weight-only quantization, particularly 3 and 4-bit weight-only quantization, has emerged as one of the most viable solutions. As the number of bits decreases, the quantization grid broadens, thus emphasizing the importance of up and down rounding. While previous studies have demonstrated that fine-tuning up and down rounding with the addition of perturbations can enhance accuracy in some scenarios, our study is driven by the precise and limited boundary of these perturbations, where only the threshold for altering the rounding value is of significance. Consequently, we propose a concise and highly effective approach for optimizing the weight rounding task. Our method, named SignRound, involves lightweight block-wise tuning using signed gradient descent, enabling us to achieve outstanding results within 400 steps. SignRound outperforms the established baseline of rounding-to-nearest (RTN) and competes impressively against recent methods, without introducing additional inference overhead. The source code will be publicly available at https://github.com/intel/neural-compressor soon.


著者 Wenhua Cheng,Weiwei Zhang,Haihao Shen,Yiyang Cai,Xin He,Kaokao Lv
発行日 2023-09-11 14:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク