Quantization of Large Language Models with an Overdetermined Basis

要約

本稿では、Kashin 表現の原理に基づいたデータ量子化アルゴリズムを紹介します。
このアプローチは、任意のベクトル、行列、またはテンソルを 2 つの要素に分解するかどうかにかかっています。
最初の因子は小さい無限ノルムを維持しますが、2 番目の因子は直交行列を乗算すると同様に制約されたノルムを示します。
驚くべきことに、分解後の因子のエントリはいくつかのピークの周囲によく集中しているため、量子化の目的でそれらを対応する重心に効率的に置き換えることができます。
私たちは、提案されたアプローチの理論的特性を研究し、次の単語の予測タスクとテキスト分類のための一連の下流タスクのコンテキストで圧縮アルゴリズムを厳密に評価します。
私たちの調査結果は、カシン量子化がデータ圧縮を確保しながらモデルのパフォーマンスにおいて競争力のある、または優れた品質を達成し、データ量子化の分野で大きな進歩を遂げていることを示しています。

要約(オリジナル)

In this paper, we introduce an algorithm for data quantization based on the principles of Kashin representation. This approach hinges on decomposing any given vector, matrix, or tensor into two factors. The first factor maintains a small infinity norm, while the second exhibits a similarly constrained norm when multiplied by an orthogonal matrix. Surprisingly, the entries of factors after decomposition are well-concentrated around several peaks, which allows us to efficiently replace them with corresponding centroids for quantization purposes. We study the theoretical properties of the proposed approach and rigorously evaluate our compression algorithm in the context of next-word prediction tasks and on a set of downstream tasks for text classification. Our findings demonstrate that Kashin Quantization achieves competitive or superior quality in model performance while ensuring data compression, marking a significant advancement in the field of data quantization.

arxiv情報

著者 Daniil Merkulov,Daria Cherniuk,Alexander Rudikov,Ivan Oseledets,Ekaterina Muravleva,Aleksandr Mikhalev,Boris Kashin
発行日 2024-04-15 12:38:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク