Understanding the difficulty of low-precision post-training quantization of large language models

要約

パラメータ数が多い大規模な言語モデルは計算コストが高くなりますが、重みを非常に低い数値精度に圧縮することではるかに効率的にすることができます。
これは、局所的な層ごとの量子化誤差を最小限に抑えることによるトレーニング後の量子化を通じて、またはグローバル損失関数を最小限に抑えることによって量子化を意識した微調整を通じて達成できます。
この研究では、同じデータ制約の下では、前者のアプローチはほぼ常に後者よりも悪い結果をもたらすことがわかりました。この現象は、数値精度が非常に低い場合に特に顕著です。
さらに、トレーニング後の量子化のこの困難は、ローカル目的関数とグローバル目的関数の最適化の間の著しい不整合から生じることを示しました。
私たちの発見は、非常に低い精度の大規模モデルでは、局所的な量子化誤差の最小化における有用性が限られていることと、直接量子化を意識した微調整の重要性を説明しています。

要約(オリジナル)

Large language models of high parameter counts are computationally expensive, yet can be made much more efficient by compressing their weights to very low numerical precision. This can be achieved either through post-training quantization by minimizing local, layer-wise quantization errors, or through quantization-aware fine-tuning by minimizing the global loss function. In this study, we discovered that, under the same data constraint, the former approach nearly always fared worse than the latter, a phenomenon particularly prominent when the numerical precision is very low. We further showed that this difficulty of post-training quantization arose from stark misalignment between optimization of the local and global objective functions. Our findings explains limited utility in minimization of local quantization error and the importance of direct quantization-aware fine-tuning, in the regime of large models at very low precision.

arxiv情報

著者 Zifei Xu,Sayeh Sharify,Wanzin Yazar,Tristan Webb,Xin Wang
発行日 2024-10-18 16:16:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク