DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers

要約

ビジョン トランスフォーマー (ViT) は、ビジョン タスクにおけるパフォーマンスで大きな注目を集めていますが、高い計算コストと重大な遅延の問題により、広範な導入が妨げられています。
モデル圧縮の有望な方法であるポストトレーニング量子化 (PTQ) は、依然として ViT の精度低下の課題に直面しています。
これには 2 つの理由があります。既存の量子化パラダイムは、Softmax 後のアクティベーションのべき乗則分布にうまく適合しないこと、および LayerNorm 後のアクティベーションを再パラメータ化した後に精度が必然的に低下することです。
私たちは、DopQ-ViT と呼ばれる、ビジョン トランスフォーマー向けの分布に優しい、外れ値を認識したトレーニング後の量子化手法を提案します。
DopQ-ViT は、現在の量子化器の非効率性を分析し、TanQ と呼ばれるディストリビューションに適した Tan Quantizer を導入します。
TanQ は 1 に近い値に重点を置き、Softmax 後のアクティベーションのべき乗則分布をより正確に保存し、良好な結果を達成します。
さらに、LayerNorm 後のアクティベーションをチャネル単位の量子化からレイヤー単位の量子化に再パラメータ化する際の精度の低下は、主にスケーリング係数の外れ値の重大な影響によるものです。
したがって、DopQ-ViT は、外れ値の影響を補償し、量子化モデルのパフォーマンスを維持する、MOSF と呼ばれる最適スケーリング係数として中央値を選択する方法を提案します。
DopQ-ViT は広範に検証されており、特に低ビット設定での量子化モデルのパフォーマンスが大幅に向上します。

要約(オリジナル)

Vision transformers (ViTs) have garnered significant attention for their performance in vision tasks, but the high computational cost and significant latency issues have hindered widespread adoption. Post-training quantization (PTQ), a promising method for model compression, still faces accuracy degradation challenges with ViTs. There are two reasons for this: the existing quantization paradigm does not fit the power-law distribution of post-Softmax activations well, and accuracy inevitably decreases after reparameterizing post-LayerNorm activations. We propose a Distribution-Friendly and Outlier-Aware Post-training Quantization method for Vision Transformers, named DopQ-ViT. DopQ-ViT analyzes the inefficiencies of current quantizers and introduces a distribution-friendly Tan Quantizer called TanQ. TanQ focuses more on values near 1, more accurately preserving the power-law distribution of post-Softmax activations, and achieves favorable results. Besides, during the reparameterization of post-LayerNorm activations from channel-wise to layer-wise quantization, the accuracy degradation is mainly due to the significant impact of outliers in the scaling factors. Therefore, DopQ-ViT proposes a method to select Median as the Optimal Scaling Factor, denoted as MOSF, which compensates for the influence of outliers and preserves the performance of the quantization model. DopQ-ViT has been extensively validated and significantly improves the performance of quantization models, especially in low-bit settings.

arxiv情報

著者 Lianwei Yang,Haisong Gong,Qingyi Gu
発行日 2024-08-16 17:10:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク