要約
ディープ ニューラル ネットワーク (DNN) は、コンピューター ビジョンの幅広いアプリケーションで最高のパフォーマンスを提供します。
これらの結果は、実行コストが高い、過剰にパラメータ化されたバックボーンに依存しています。
この計算負荷は、(データフリー (DFQ)、ポストトレーニング (PTQ)、または量子化対応トレーニング (QAT) のいずれかのシナリオで) 浮動小数点値を 3 値 (2 ビット、各重みが値を取る) に量子化することで大幅に軽減できます。
{-1,0,1} で)。
これに関連して、最も近い値への丸めは、一様分布の場合に予想される誤差を最小限に抑えるため、3 値量子化のパフォーマンスに大きな影響を与える重み分布の歪みと尖度を考慮していないことがわかります。
これにより、次の疑問が生じます。最大または平均の量子化誤差を最小限に抑えるべきでしょうか?
これに答えるために、これらのそれぞれの最小化タスクに対応する 2 つの演算子、TQuant と MQuant を設計します。
私たちは、DFQ、PTQ、QAT のさまざまなシナリオを通じて、私たちのアプローチにより 3 値量子化のパフォーマンスが大幅に向上することを実験的に示し、ディープ ニューラル ネットワーク量子化における将来の研究への道を開くための強力な洞察を提供します。
要約(オリジナル)
Deep neural networks (DNNs) offer the highest performance in a wide range of applications in computer vision. These results rely on over-parameterized backbones, which are expensive to run. This computational burden can be dramatically reduced by quantizing (in either data-free (DFQ), post-training (PTQ) or quantization-aware training (QAT) scenarios) floating point values to ternary values (2 bits, with each weight taking value in {-1,0,1}). In this context, we observe that rounding to nearest minimizes the expected error given a uniform distribution and thus does not account for the skewness and kurtosis of the weight distribution, which strongly affects ternary quantization performance. This raises the following question: shall one minimize the highest or average quantization error? To answer this, we design two operators: TQuant and MQuant that correspond to these respective minimization tasks. We show experimentally that our approach allows to significantly improve the performance of ternary quantization through a variety of scenarios in DFQ, PTQ and QAT and give strong insights to pave the way for future research in deep neural network quantization.
arxiv情報
著者 | Edouard Yvinec,Arnaud Dapogny,Kevin Bailly |
発行日 | 2023-06-30 07:35:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google