要約
深いニューラルネットワークは、自然言語処理やコンピュータービジョンから音声認識まで、幅広いアプリケーションで最先端の結果を達成しています。
ただし、タスクがますます複雑になるにつれて、モデルのサイズが増加し続け、レイテンシとメモリの効率に課題をもたらします。
これらの制約を満たすために、トレーニング後の量子化は有望な解決策として浮上しています。
このホワイトペーパーでは、最小限の精度分解でハードウェアの利点を活用する新しいハードウェア効率の高い量子化および推論スキームを提案します。
具体的には、W4A8スキームを導入します。ここでは、4ビット整数精度を使用して重みが量子化され、保存され、推論計算は8ビットの浮動小数点算術を使用して実行され、さまざまな最新の加速器に適用される16ビット操作と比較して、重要なスピードアップと16ビット操作の改善を実証します。
精度の損失を軽減するために、追加の推論オーバーヘッドを導入することなくスキームの一意の構造を活用するデュアル精度量子化(DPQ)と呼ばれる新しい量子化アルゴリズムを開発します。
実験結果は、全精度モデルに比べて許容精度分解を維持しながら、パフォーマンスの向上(つまり、スループットの増加)を示しています。
要約(オリジナル)
Deep neural networks have achieved state-of-the-art results in a wide range of applications, from natural language processing and computer vision to speech recognition. However, as tasks become increasingly complex, model sizes continue to grow, posing challenges in latency and memory efficiency. To meet these constraints, post-training quantization has emerged as a promising solution. In this paper, we propose a novel hardware-efficient quantization and inference scheme that exploits hardware advantages with minimal accuracy degradation. Specifically, we introduce a W4A8 scheme, where weights are quantized and stored using 4-bit integer precision, and inference computations are performed using 8-bit floating-point arithmetic, demonstrating significant speedups and improved memory utilization compared to 16-bit operations, applicable on various modern accelerators. To mitigate accuracy loss, we develop a novel quantization algorithm, dubbed Dual Precision Quantization (DPQ), that leverages the unique structure of our scheme without introducing additional inference overhead. Experimental results demonstrate improved performance (i.e., increased throughput) while maintaining tolerable accuracy degradation relative to the full-precision model.
arxiv情報
著者 | Tomer Gafni,Asaf Karnieli,Yair Hanani |
発行日 | 2025-05-20 17:26:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google