Towards Low-bit Communication for Tensor Parallel LLM Inference

要約

Tensor 並列処理は、通信コストが追加されるにもかかわらず、サーバーの大規模言語モデル (LLM) の推論効率を向上させる効果的な方法を提供します。
ただし、サーバー LLM のサイズが拡大し続けると、より多くのデバイスに分散する必要が生じ、通信コストが増大します。
この問題にアプローチする 1 つの方法は量子化ですが、LLM の現在の方法では、テンソル並列処理で伝達する必要がある特徴の量子化を回避する傾向があります。
通信された特徴における一貫した異常値を利用して、元のパフォーマンスをほぼすべて維持しながら、通信される値を平均 16 ビットから 4.2 ビットに削減する量子化方法を導入します。
たとえば、私たちの方法は、評価したすべてのタスクの平均で、Gemma 2 27B と Llama 2 13B の元のパフォーマンスをそれぞれ約 98.0% と 99.5% 維持します。

要約(オリジナル)

Tensor parallelism provides an effective way to increase server large language model (LLM) inference efficiency despite adding an additional communication cost. However, as server LLMs continue to scale in size, they will need to be distributed across more devices, magnifying the communication cost. One way to approach this problem is with quantization, but current methods for LLMs tend to avoid quantizing the features that tensor parallelism needs to communicate. Taking advantage of consistent outliers in communicated features, we introduce a quantization method that reduces communicated values on average from 16 bits to 4.2 bits while preserving nearly all of the original performance. For instance, our method maintains around 98.0% and 99.5% of Gemma 2 27B’s and Llama 2 13B’s original performance, respectively, averaged across all tasks we evaluated on.

arxiv情報

著者 Harry Dong,Tyler Johnson,Minsik Cho,Emad Soroush
発行日 2024-11-12 17:11:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク