Accurate Block Quantization in LLMs with Outliers

要約

非常に大規模な LLM に対する推論の需要は、ここ数カ月で大幅に増加しています。
これにより、関連するコンピューティングとメモリの移動を効率的かつ高速に処理できる専用ハードウェアが大幅に不足していることが明らかになりました。
この問題は、処理されるシーケンスの長さが爆発的に増加することによってさらに悪化します。これは、シーケンスの長さに比例したサイズの KV キャッシュの効率的なオンチップ ストレージが必要となるためです。
必要な計算を実行可能にし、関連するデータを利用可能なメモリに適合させるために、重みとアクティベーションの両方を正確に量子化できる数多くの量子化手法が提案されています。
この方向における最近の主な進歩の 1 つは、共有スケール係数を持つ仮数のブロックを特徴とするブロック浮動小数点 (BFP) フォーマット ファミリの導入でした。
これらにより、テンソル演算のメモリ電力と計算効率の高いハードウェア サポートが可能になり、非常に優れた量子化精度が提供されます。
ブロック形式の広範な適用を妨げる主な問題は、重みとアクティベーションに異常値が存在することによって引き起こされます。これらは同じブロック内の他の値の精度に影響を与えるためです。
このペーパーでは、限られた KV キャッシュ ストレージという最も重要な問題に焦点を当てます。
私たちは、結果として得られるモデルの精度を損なうことなく、低精度の BFP フォーマットの使用を可能にする新しいアプローチを提案します。
外れ値によって示される共通のチャネルごとのパターンを利用して、量子化の品質が大幅に向上するような方法で外れ値を再配置します。
この方法では、モデルの精度を大幅に低下させることなく、メモリ フットプリントを 2 倍節約できます。
重要なのは、チャネルの再配置はコンパイル時に行われるため、推論のレイテンシーには影響を与えないことです。

要約(オリジナル)

The demand for inference on extremely large scale LLMs has seen enormous growth in the recent months. It made evident the colossal shortage of dedicated hardware capable of efficient and fast processing of the involved compute and memory movement. The problem is aggravated by the exploding raise in the lengths of the sequences being processed, since those require efficient on-chip storage of the KV-cache of size proportional to the sequence length. To make the required compute feasible and fit the involved data into available memory, numerous quantization techniques have been proposed that allow accurate quantization for both weights and activations. One of the main recent breakthroughs in this direction was introduction of the family of Block Floating Point (BFP) formats characterized by a block of mantissas with a shared scale factor. These enable memory- power-, and compute- efficient hardware support of the tensor operations and provide extremely good quantization accuracy. The main issues preventing widespread application of block formats is caused by the presence of outliers in weights and activations since those affect the accuracy of the other values in the same block. In this paper, we focus on the most critical problem of limited KV-cache storage. We propose a novel approach enabling usage of low precision BFP formats without compromising the resulting model accuracy. We exploit the common channel-wise patterns exhibited by the outliers to rearrange them in such a way, that their quantization quality is significantly improved. The methodology yields 2x savings in the memory footprint without significant degradation of the model’s accuracy. Importantly, the rearrangement of channels happens at the compile time and thus has no impact on the inference latency.

arxiv情報

著者 Nikita Trukhanov,Ilya Soloveychik
発行日 2024-03-29 12:15:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.NA, math.NA パーマリンク