QuIP: 2-Bit Quantization of Large Language Models With Guarantees

要約

この研究では、大規模言語モデル (LLM) におけるトレーニング後のパラメーターの量子化を研究します。
私たちは、量子化が $\textit{incoherent}$ 重みとヘシアン行列から、つまり重みの大きさと重要な方向が均一であることから、量子化が恩恵を受けるという洞察に基づいた新しい方法である、インコヒーレンス処理による量子化 (QuIP) を導入します。
座標軸とずれた状態で正確に丸めるためです。
QuIP は 2 つのステップで構成されます。(1) 二次プロキシ目標を最小化する適応丸め手順。
(2) ランダムな直交行列による乗算によって重みとヘシアンのインコヒーレンスを保証する効率的な前処理および後処理。
我々は、LLM スケールの量子化アルゴリズムの最初の理論分析で QuIP を補完し、我々の理論が既存の手法である OPTQ にも適用できることを示します。
経験的に、インコヒーレンス前処理によりいくつかの既存の量子化アルゴリズムが改善され、重みあたり 2 ビットのみを使用して実行可能な結果を​​生成する最初の LLM 量子化手法が得られることがわかりました。
私たちのコードは https://github.com/Cornell-RelaxML/QuIP にあります。

要約(オリジナル)

This work studies post-training parameter quantization in large language models (LLMs). We introduce quantization with incoherence processing (QuIP), a new method based on the insight that quantization benefits from $\textit{incoherent}$ weight and Hessian matrices, i.e., from the weights being even in magnitude and the directions in which it is important to round them accurately being unaligned with the coordinate axes. QuIP consists of two steps: (1) an adaptive rounding procedure minimizing a quadratic proxy objective; (2) efficient pre- and post-processing that ensures weight and Hessian incoherence via multiplication by random orthogonal matrices. We complement QuIP with the first theoretical analysis for an LLM-scale quantization algorithm, and show that our theory also applies to an existing method, OPTQ. Empirically, we find that our incoherence preprocessing improves several existing quantization algorithms and yields the first LLM quantization methods that produce viable results using only two bits per weight. Our code can be found at https://github.com/Cornell-RelaxML/QuIP.

arxiv情報

著者 Jerry Chee,Yaohui Cai,Volodymyr Kuleshov,Christopher De Sa
発行日 2024-01-15 21:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク