要約
推論高速化のための大規模言語モデル (LLM) 量子化の人気にもかかわらず、さまざまな量子化形式に関連する精度とパフォーマンスのトレードオフに関しては、大きな不確実性が残っています。
私たちは、Llama-3.1 モデル ファミリ全体で、学術的なベンチマークと現実世界のタスクにわたって一般的な量子化形式 (FP8、INT8、INT4) を評価する、量子化精度の包括的な実証研究を紹介します。
さらに、私たちの研究では、量子化モデルと非圧縮モデルによって生成されたテキストの違いを調べています。
ベンチマーク以外にも、最先端の精度回復結果を得ることができる量子化の改善もいくつか紹介します。
500,000 を超える個別の評価を含む私たちの調査では、いくつかの重要な発見が得られました: (1) FP8 の重みとアクティベーションの量子化 (W8A8-FP) はすべてのモデル スケールでロスレスです、(2) INT8 の重みとアクティベーションの量子化 (W8A8-INT) (適切な場合)
(3) INT4 重みのみの量子化 (W4A16-INT) は、8 ビット整数の重みおよびアクティベーション量子化と競合します。
特定の展開環境に「最適な」形式という問題に対処するために、さまざまな GPU アーキテクチャで人気のオープンソース vLLM フレームワークを使用して推論パフォーマンス分析を実施します。
W4A16 は、同期デプロイメントおよび中間層 GPU での非同期デプロイメントに対して最高のコスト効率を提供することがわかりました。
同時に、W8A8 形式は、ハイエンド GPU 上での中型および大型モデルの非同期「連続バッチ処理」展開に優れています。
私たちの結果は、規模やパフォーマンス要件を超えて量子化 LLM を導入するための一連の実践的なガイドラインを提供します。
要約(オリジナル)
Despite the popularity of large language model (LLM) quantization for inference acceleration, significant uncertainty remains regarding the accuracy-performance trade-offs associated with various quantization formats. We present a comprehensive empirical study of quantized accuracy, evaluating popular quantization formats (FP8, INT8, INT4) across academic benchmarks and real-world tasks, on the entire Llama-3.1 model family. Additionally, our study examines the difference in text generated by quantized models versus their uncompressed counterparts. Beyond benchmarks, we also present a couple of quantization improvements which allowed us to obtain state-of-the-art accuracy recovery results. Our investigation, encompassing over 500,000 individual evaluations, yields several key findings: (1) FP8 weight and activation quantization (W8A8-FP) is lossless across all model scales, (2) INT8 weight and activation quantization (W8A8-INT), when properly tuned, incurs surprisingly low 1-3% accuracy degradation, and (3) INT4 weight-only quantization (W4A16-INT) is competitive with 8-bit integer weight and activation quantization. To address the question of the ‘best’ format for a given deployment environment, we conduct inference performance analysis using the popular open-source vLLM framework on various GPU architectures. We find that W4A16 offers the best cost-efficiency for synchronous deployments, and for asynchronous deployment on mid-tier GPUs. At the same time, W8A8 formats excel in asynchronous ‘continuous batching’ deployment of mid- and large-size models on high-end GPUs. Our results provide a set of practical guidelines for deploying quantized LLMs across scales and performance requirements.
arxiv情報
著者 | Eldar Kurtic,Alexandre Marques,Shubhra Pandit,Mark Kurtz,Dan Alistarh |
発行日 | 2024-11-04 18:21:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google