Atom: Low-bit Quantization for Efficient and Accurate LLM Serving

要約

コンテンツ生成、インテリジェントなチャットボット、センチメント分析などのアプリケーションにおける大規模言語モデル (LLM) の需要の高まりは、LLM サービス プロバイダーにとって大きな課題となっています。
GPU リソースを効率的に使用してスループットを向上させるために、複数のリクエストをバッチ処理することが一般的なパラダイムとして浮上しています。
バッチ処理をさらに高速化するために、LLM 量子化技術によりメモリ消費量が削減され、コンピューティング能力が向上します。
ただし、一般的な量子化スキーム (8 ビット ウェイト アクティベーション量子化など) では、4 ビット整数演算子などの最新の GPU の機能を十分に活用できず、最適なパフォーマンスが得られません。
LLM のサービス スループットを最大化するために、無視できる精度の損失で高スループットの向上を達成する低ビット量子化手法である Atom を導入します。
Atom は、低ビット演算子を使用することで処理のスループットを大幅に向上させ、低ビット量子化によりメモリ消費量を大幅に削減します。
新しい混合精度と細粒度の量子化プロセスを適用することで、高い精度を実現します。
サービングコンテキストでの 4 ビットの重み付けアクティベーション量子化セットアップで Atom を評価します。
Atom は、同じ遅延目標を維持しながら、エンドツーエンドのスループットを FP16 と比較して最大 $7.73\times$、INT8 量子化と比較して $2.53\times$ 向上させます。

要約(オリジナル)

The growing demand for Large Language Models (LLMs) in applications such as content generation, intelligent chatbots, and sentiment analysis poses considerable challenges for LLM service providers. To efficiently use GPU resources and boost throughput, batching multiple requests has emerged as a popular paradigm; to further speed up batching, LLM quantization techniques reduce memory consumption and increase computing capacity. However, prevalent quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully leverage the capabilities of modern GPUs, such as 4-bit integer operators, resulting in sub-optimal performance. To maximize LLMs’ serving throughput, we introduce Atom, a low-bit quantization method that achieves high throughput improvements with negligible accuracy loss. Atom significantly boosts serving throughput by using low-bit operators and considerably reduces memory consumption via low-bit quantization. It attains high accuracy by applying a novel mixed-precision and fine-grained quantization process. We evaluate Atom on 4-bit weight-activation quantization setups in the serving context. Atom improves end-to-end throughput by up to $7.73\times$ compared to the FP16 and by $2.53\times$ compared to INT8 quantization, while maintaining the same latency target.

arxiv情報

著者 Yilong Zhao,Chien-Yu Lin,Kan Zhu,Zihao Ye,Lequn Chen,Size Zheng,Luis Ceze,Arvind Krishnamurthy,Tianqi Chen,Baris Kasikci
発行日 2023-11-07 17:47:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク