MixQuant: Mixed Precision Quantization with a Bit-width Optimization Search

要約

量子化は、効率的なディープ ニューラル ネットワーク (DNN) を作成するための手法であり、f32 浮動小数点精度よりも低いビット幅で計算を実行し、テンソルを格納することが含まれます。
量子化によりモデルのサイズと推論レイテンシが削減されるため、計算リソースが限られたプラットフォームやリアルタイム システムに DNN を展開できるようになります。
ただし、量子化により、丸め誤差によって数値が不安定になり、計算が不正確になり、量子化モデルの精度が低下する可能性があります。
バイアスとアクティベーションの両方が量子化に対してより敏感であり、完全な精度で維持するか、より高いビット幅で量子化するのが最適であることを示した以前の研究と同様に、一部の重みが他の重みよりも敏感であり、量子化に反映される必要があることを示します。
ビット幅。
そのために、丸め誤差に基づいて各層の重みに最適なカスタム量子化ビット幅を見つけ、前処理最適化の形式として任意の量子化方法と組み合わせることができる検索アルゴリズムである MixQuant を提案します。
MixQuant と最先端の量子化手法である BRECQ を組み合わせると、BRECQ 単独よりも優れた量子化モデルの精度が得られることを示します。
さらに、MixQuant とバニラの非対称量子化を組み合わせて、MixQuant があらゆる量子化手法のパフォーマンスを最適化する可能性があることを示します。

要約(オリジナル)

Quantization is a technique for creating efficient Deep Neural Networks (DNNs), which involves performing computations and storing tensors at lower bit-widths than f32 floating point precision. Quantization reduces model size and inference latency, and therefore allows for DNNs to be deployed on platforms with constrained computational resources and real-time systems. However, quantization can lead to numerical instability caused by roundoff error which leads to inaccurate computations and therefore, a decrease in quantized model accuracy. Similarly to prior works, which have shown that both biases and activations are more sensitive to quantization and are best kept in full precision or quantized with higher bit-widths, we show that some weights are more sensitive than others which should be reflected on their quantization bit-width. To that end we propose MixQuant, a search algorithm that finds the optimal custom quantization bit-width for each layer weight based on roundoff error and can be combined with any quantization method as a form of pre-processing optimization. We show that combining MixQuant with BRECQ, a state-of-the-art quantization method, yields better quantized model accuracy than BRECQ alone. Additionally, we combine MixQuant with vanilla asymmetric quantization to show that MixQuant has the potential to optimize the performance of any quantization technique.

arxiv情報

著者 Eliska Kloberdanz,Wei Le
発行日 2023-09-29 15:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク