A Comprehensive Survey on Model Quantization for Deep Neural Networks

要約

近年のディープニューラルネットワークによる機械学習の進歩は著しいものがあります。しかし、これらのネットワークを使用することは、ストレージや計算のための膨大な数のパラメータを伴い、ハードウェアコストの上昇を招き、課題を投げかけています。そこで、効率的なアクセラレータを設計するために、圧縮アプローチが提案されています。ディープニューラルネットワークの圧縮のための重要なアプローチの一つは、低ビット幅で全精度の値を格納する量子化です。こうすることで、メモリの節約に加え、演算が簡単で低コストのものに置き換わります。DNNの量子化については、柔軟性や効率的なハードウェアの設計への影響から、近年多くの手法が提案されている。そのため、より良い理解、分析、比較のためには、統合されたレポートが不可欠である。本論文では、包括的なサーベイを提供する。量子化の概念を説明し,様々な観点から手法を分類する。量子化レベルを全精密値の分布に一致させるためのスケールファクターの使用について説明し、クラスタリングに基づく方法について説明する。量子化されたディープニューラルネットワークの訓練とStraight-Through Estimatorの使用について初めて包括的にレビューする。また、量子化された深層畳み込みニューラルネットワークの演算の単純さを説明し、量子化における異なる層の感度を説明する。最後に、量子化手法の評価について述べ、CIFAR-10と大規模データセットであるImageNetにおいて、重みと活性化のビット幅を様々に変えて、これまでの手法の精度を比較する。

要約(オリジナル)

Recent advances in machine learning by deep neural networks are significant. But using these networks has been accompanied by a huge number of parameters for storage and computations that leads to an increase in the hardware cost and posing challenges. Therefore, compression approaches have been proposed to design efficient accelerators. One important approach for deep neural network compression is quantization that full-precision values are stored in low bit-width. In this way, in addition to memory saving, the operations will be replaced by simple ones with low cost. Many methods are suggested for DNNs Quantization in recent years, because of flexibility and influence in designing efficient hardware. Therefore, an integrated report is essential for better understanding, analysis, and comparison. In this paper, we provide a comprehensive survey. We describe the quantization concepts and categorize the methods from different perspectives. We discuss using the scale factor to match the quantization levels with the distribution of the full-precision values and describe the clustering-based methods. For the first time, we review the training of a quantized deep neural network and using Straight-Through Estimator comprehensively. Also, we describe the simplicity of operations in quantized deep convolutional neural networks and explain the sensitivity of the different layers in quantization. Finally, we discuss the evaluation of the quantization methods and compare the accuracy of previous methods with various bit-width for weights and activations on CIFAR-10 and the large-scale dataset, ImageNet.

arxiv情報

著者 Babak Rokh,Ali Azarpeyvand,Alireza Khanteymoori
発行日 2023-05-12 16:08:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク