BiTAT: Neural Network Binarization with Task-dependent Aggregated Transformation

要約

ニューラルネットワークの量子化は、与えられたニューラルネットワークの高精度の重みと活性度を低精度の重み/活性度に変換し、元のモデルの性能を維持したまま、メモリ使用量と計算量を削減することを目的としています。しかし、エッジデバイスの展開によく使われるコンパクトに設計された基幹アーキテクチャ(MobileNetsなど)の極端な量子化(1ビット重み/1ビット活性化)は、深刻な性能低下をもたらします。本論文では、各レイヤー内の重みと連続したレイヤー間の重みの依存関係に着目し、極端な量子化が行われても効果的に性能低下を緩和できる新しい量子化対応学習法(QAT)を提案する。各重みが他へ与える量子化の影響を最小化するため、入力に依存する相関行列と重要度ベクトルを学習し、各重みが他から切り離されるように各層の重みの正規直交変換を実行する。次に、重要度に基づいて重みを量子化し、元の重み/活性からの情報の損失を最小にする。さらに、最下層から最上層に向かって層状の量子化を行い、各層での量子化が前の層での重みと活性の量子化された分布を反映するようにする。我々は、様々なベンチマークデータセットにおいて、強力なニューラル量子化ベースラインに対する本手法の有効性を検証し、ImageNetにおける性能低下を緩和し、コンパクトなバックボーンネットワークを持つCIFAR-100において全精度のモデル性能を維持することに成功することを実証する。

要約(オリジナル)

Neural network quantization aims to transform high-precision weights and activations of a given neural network into low-precision weights/activations for reduced memory usage and computation, while preserving the performance of the original model. However, extreme quantization (1-bit weight/1-bit activations) of compactly-designed backbone architectures (e.g., MobileNets) often used for edge-device deployments results in severe performance degeneration. This paper proposes a novel Quantization-Aware Training (QAT) method that can effectively alleviate performance degeneration even with extreme quantization by focusing on the inter-weight dependencies, between the weights within each layer and across consecutive layers. To minimize the quantization impact of each weight on others, we perform an orthonormal transformation of the weights at each layer by training an input-dependent correlation matrix and importance vector, such that each weight is disentangled from the others. Then, we quantize the weights based on their importance to minimize the loss of the information from the original weights/activations. We further perform progressive layer-wise quantization from the bottom layer to the top, so that quantization at each layer reflects the quantized distributions of weights and activations at previous layers. We validate the effectiveness of our method on various benchmark datasets against strong neural quantization baselines, demonstrating that it alleviates the performance degeneration on ImageNet and successfully preserves the full-precision model performance on CIFAR-100 with compact backbone networks.

arxiv情報

著者 Geon Park,Jaehong Yoon,Haiyang Zhang,Xing Zhang,Sung Ju Hwang,Yonina C. Eldar
発行日 2022-07-04 13:25:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, stat.ML パーマリンク