I-ViT: Integer-only Quantization for Efficient Vision Transformer Inference

要約

ビジョン変換器(ViT)は、様々なコンピュータビジョンアプリケーションにおいて、最先端の性能を達成している。しかし、これらのモデルはかなりのストレージと計算オーバーヘッドを持ち、エッジデバイスへの展開と効率的な推論を困難にしています。量子化はモデルの複雑性を軽減する有望なアプローチですが、残念ながら、既存の量子化の取り組みはシミュレーション量子化(別名、偽量子化)であり、推論中は浮動小数点演算のままなので、モデルの高速化にほとんど寄与していません。本論文では、ViTが推論の全計算グラフを整数演算とビットシフトで行い、浮動小数点演算を行わない、ViTのための整数限定量子化方式I-ViTを提案します。I-ViTでは、線形演算(MatMulやDenseなど)は二項演算による整数のみのパイプラインをたどり、非線形演算(Softmax、GELU、LayerNormなど)は提案する軽量整数のみの演算方式で近似させる。特に、I-ViTでは、提案するShiftmaxとShiftGELUを適用し、整数のビットシフトを利用して対応する浮動小数点演算を近似するように設計されている。様々なベンチマークモデルでI-ViTを評価した結果、整数値のみのINT8量子化では、完全精度(FP)ベースラインと同等(あるいはそれ以上)の精度を達成できることが分かりました。さらに、GPUの整数演算ユニットでTVMを実用化し、FPモデルと比較して3.72~4.11$Θtimes$の推論速度向上を達成した。

要約(オリジナル)

Vision Transformers (ViTs) have achieved state-of-the-art performance on various computer vision applications. These models, however, have considerable storage and computational overheads, making their deployment and efficient inference on edge devices challenging. Quantization is a promising approach to reducing model complexity; unfortunately, existing efforts to quantize ViTs are simulated quantization (aka fake quantization), which remains floating-point arithmetic during inference and thus contributes little to model acceleration. In this paper, we propose I-ViT, an integer-only quantization scheme for ViTs, to enable ViTs to perform the entire computational graph of inference with integer operations and bit-shifting and no floating-point operations. In I-ViT, linear operations (e.g., MatMul and Dense) follow the integer-only pipeline with dyadic arithmetic, and non-linear operations (e.g., Softmax, GELU, and LayerNorm) are approximated by the proposed light-weight integer-only arithmetic methods. In particular, I-ViT applies the proposed Shiftmax and ShiftGELU, which are designed to use integer bit-shifting to approximate the corresponding floating-point operations. We evaluate I-ViT on various benchmark models and the results show that integer-only INT8 quantization achieves comparable (or even higher) accuracy to the full-precision (FP) baseline. Furthermore, we utilize TVM for practical hardware deployment on the GPU’s integer arithmetic units, achieving 3.72~4.11$\times$ inference speedup compared to the FP model.

arxiv情報

著者 Zhikai Li,Qingyi Gu
発行日 2022-07-04 13:37:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク