DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers

要約

ビジョン トランスフォーマー (ViT) は、ビジョン タスクにおけるパフォーマンスで大きな注目を集めています。
しかし、高い計算コストと重大なレイテンシーの問題により、広範な採用が妨げられています。
モデル圧縮の有望な方法であるポストトレーニング量子化 (PTQ) は、依然として ViT の精度低下の課題に直面しています。
これには 2 つの理由があります。既存の量子化パラダイムは、Softmax 後のアクティベーションのべき乗則分布にうまく適合しないこと、および LayerNorm 後のアクティベーションを再パラメータ化した後に精度が必然的に低下することです。
私たちは、DopQ-ViT と呼ばれる、ビジョン トランスフォーマー向けの分布に優しい、外れ値を認識したトレーニング後の量子化手法を提案します。
DopQ-ViT は、現在の量子化器の非効率性を分析し、TanQ と呼ばれるディストリビューションに適した Tan Quantizer を導入します。
TanQ は 1 に近い値に重点を置き、Softmax 後のアクティベーションのべき乗則分布をより正確に保存し、良好な結果を達成します。
さらに、LayerNorm 後のアクティベーションをチャネル単位の量子化からレイヤー単位の量子化に再パラメータ化する場合、精度の低下は主にスケーリング係数の外れ値の重大な影響によるものです。
したがって、DopQ-ViT は、外れ値の影響を補償し、量子化モデルのパフォーマンスを維持する、SOSF と呼ばれる最適なスケーリング係数を検索する方法を提案します。
DopQ-ViT は広範な検証を受けており、特に低ビット設定での量子化モデルのパフォーマンスが大幅に向上していることが実証されています。

要約(オリジナル)

Vision transformers (ViTs) have garnered significant attention for their performance in vision tasks; however, the high computational cost and significant latency issues have hinder widespread adoption. Post-training quantization (PTQ), a promising method for model compression, still faces accuracy degradation challenges with ViTs. There are two reasons for this: the existing quantization paradigm does not fit the power-law distribution of post-Softmax activations well, and accuracy inevitably decreases after reparameterizing post-LayerNorm activations. We propose a Distribution-Friendly and Outlier-Aware Post-training Quantization method for Vision Transformers, named DopQ-ViT. DopQ-ViT analyzes the inefficiencies of current quantizers and introduces a distribution-friendly Tan Quantizer called TanQ. TanQ focuses more on values near 1, more accurately preserving the power-law distribution of post-Softmax activations, and achieves favorable results. Moreover, when reparameterizing post-LayerNorm activations from channel-wise to layer-wise quantization, the accuracy degradation is mainly due to the significant impact of outliers in the scaling factors. Therefore, DopQ-ViT proposes a method to Search for the Optimal Scaling Factor, denoted as SOSF, which compensates for the influence of outliers and preserves the performance of the quantization model. DopQ-ViT has undergone extensive validation and demonstrates significant performance improvements in quantization models, particularly in low-bit settings.

arxiv情報

著者 Lianwei Yang,Haisong Gong
発行日 2024-08-06 16:40:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク