要約
Shannonのソースコーディング理論に根ざした問題であるベクター量子化は、幾何学的構造の歪みを最小限に抑えながら、高次元ユークリッドベクターを量子化することを目的としています。
平均二乗エラー(MSE)と内部製品の歪みの両方に対処するためにターボクロントを提案し、最適な歪み速度を達成できない既存の方法の制限を克服します。
オンラインアプリケーションに適したデータに適したアルゴリズムは、すべてのビット幅と次元にわたって、ほぼ最適な歪みレート(小さな定数因子内)を達成します。
TurboQuantは、ランダムに回転した入力ベクトルをランダムに回転させ、座標に濃縮ベータ分布を誘導し、高次元での異なる座標のほぼ独立特性を活用して、各座標あたり最適なスカラー量子化装置を適用することにより、これを達成します。
MSE-Optimalの量子力が内部製品の推定にバイアスを導入することを認識して、2段階のアプローチを提案します。MSE量子化器を適用し、それに続いて残差に1ビットの量子化JL(QJL)変換を加えて、偏りのない内積量子化器をもたらします。
また、任意のベクター量子数によって最良の達成可能な歪み速度に関する情報理論下の下限の正式な証拠を提供し、ターボクロントがこれらの境界に密接に一致し、小さな定数($ \約2.7 $)係数のみによってのみ異なることを示しています。
実験結果は、理論的な調査結果を検証し、KVキャッシュの量子化では、チャネルあたり3.5ビットで絶対的な品質中立性を達成し、チャネルあたり2.5ビットの限界品質分解を達成することを示しています。
さらに、最も近い隣の検索タスクでは、私たちの方法は、リコールで既存の製品量子化技術を上回り、インデックス時間を実質的にゼロに短縮します。
要約(オリジナル)
Vector quantization, a problem rooted in Shannon’s source coding theory, aims to quantize high-dimensional Euclidean vectors while minimizing distortion in their geometric structure. We propose TurboQuant to address both mean-squared error (MSE) and inner product distortion, overcoming limitations of existing methods that fail to achieve optimal distortion rates. Our data-oblivious algorithms, suitable for online applications, achieve near-optimal distortion rates (within a small constant factor) across all bit-widths and dimensions. TurboQuant achieves this by randomly rotating input vectors, inducing a concentrated Beta distribution on coordinates, and leveraging the near-independence property of distinct coordinates in high dimensions to simply apply optimal scalar quantizers per each coordinate. Recognizing that MSE-optimal quantizers introduce bias in inner product estimation, we propose a two-stage approach: applying an MSE quantizer followed by a 1-bit Quantized JL (QJL) transform on the residual, resulting in an unbiased inner product quantizer. We also provide a formal proof of the information-theoretic lower bounds on best achievable distortion rate by any vector quantizer, demonstrating that TurboQuant closely matches these bounds, differing only by a small constant ($\approx 2.7$) factor. Experimental results validate our theoretical findings, showing that for KV cache quantization, we achieve absolute quality neutrality with 3.5 bits per channel and marginal quality degradation with 2.5 bits per channel. Furthermore, in nearest neighbor search tasks, our method outperforms existing product quantization techniques in recall while reducing indexing time to virtually zero.
arxiv情報
著者 | Amir Zandieh,Majid Daliri,Majid Hadian,Vahab Mirrokni |
発行日 | 2025-04-28 15:05:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google