PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression

要約

大規模言語モデル (LLM) の「極端な」圧縮、つまりパラメーターあたり 1 ~ 2 ビットへの「極端な」圧縮に大きな関心が寄せられています。これにより、リソースに制約のあるデバイス上でそのようなモデルを効率的に実行できるようになります。
既存の研究は、改良されたワンショット量子化技術と重み表現に焦点を当てていました。
しかし、純粋にトレーニング後のアプローチでは、精度とビット幅のトレードオフの点で利益が減少しています。
QuIP# や AQLM などの最先端の量子化方法には、限られた量のキャリブレーション データに対して圧縮パラメータ (の一部) を微調整する機能が含まれています。
ただし、圧縮された重みに対するこのような微調整手法では、ストレートスルー推定器 (STE) が排他的に使用されることが多く、この設定ではそのパフォーマンスが十分に理解されていません。
この研究では、極端な LLM 圧縮に STE を使用することに疑問を呈し、最適ではない可能性があることを示し、LLM の量子化を意識した微調整戦略の体系的な研究を実行します。
私たちは、既存の微調整戦略を一般化および改善し、制限されたケースでの収束保証を提供する、表現に依存しないフレームワークである PV チューニングを提案します。
実用面では、PV-Tuning を 1 ~ 2 ビットのベクトル量子化に使用すると、Llama や Mistral などの高性能モデルに対する従来の技術よりも優れたパフォーマンスを発揮します。
PV チューニングを使用すると、Llama 2 ファミリ モデルに対してパラメータごとに 2 ビットで初のパレート最適量子化を実現できます。

要約(オリジナル)

There has been significant interest in ‘extreme’ compression of large language models (LLMs), i.e., to 1-2 bits per parameter, which allows such models to be executed efficiently on resource-constrained devices. Existing work focused on improved one-shot quantization techniques and weight representations; yet, purely post-training approaches are reaching diminishing returns in terms of the accuracy-vs-bit-width trade-off. State-of-the-art quantization methods such as QuIP# and AQLM include fine-tuning (part of) the compressed parameters over a limited amount of calibration data; however, such fine-tuning techniques over compressed weights often make exclusive use of straight-through estimators (STE), whose performance is not well-understood in this setting. In this work, we question the use of STE for extreme LLM compression, showing that it can be sub-optimal, and perform a systematic study of quantization-aware fine-tuning strategies for LLMs. We propose PV-Tuning – a representation-agnostic framework that generalizes and improves upon existing fine-tuning strategies, and provides convergence guarantees in restricted cases. On the practical side, when used for 1-2 bit vector quantization, PV-Tuning outperforms prior techniques for highly-performant models such as Llama and Mistral. Using PV-Tuning, we achieve the first Pareto-optimal quantization for Llama 2 family models at 2 bits per parameter.

arxiv情報

著者 Vladimir Malinovskii,Denis Mazur,Ivan Ilin,Denis Kuznedelev,Konstantin Burlachenko,Kai Yi,Dan Alistarh,Peter Richtarik
発行日 2024-05-23 17:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク