Rotation Invariant Quantization for Model Compression

要約

トレーニング後のニューラル ネットワーク (NN) モデル圧縮は、メモリ リソースが限られているデバイスに大規模でメモリを消費するモデルを展開するための魅力的なアプローチです。
この研究では、NN モデル圧縮のレートと歪みのトレードオフを調査します。
まず、単一のパラメータを利用して NN モデル全体を量子化し、各層で異なるレートを生成する回転不変量子化 (RIQ) 手法、つまり混合精度量子化を提案します。
次に、回転不変アプローチが圧縮に関して最適であることを証明します。
私たちは RIQ を厳密に評価し、さまざまなモデルやタスクでその機能を実証します。
たとえば、RIQ は、事前トレーニングされた VGG 密モデルと枝刈りモデルでそれぞれ $\times 19.4$ と $\times 52.9$ の圧縮率を実現しますが、精度の低下は $<0.4\%$ です。 コードは \url{https://github.com/ehaleva/RIQ} で入手できます。

要約(オリジナル)

Post-training Neural Network (NN) model compression is an attractive approach for deploying large, memory-consuming models on devices with limited memory resources. In this study, we investigate the rate-distortion tradeoff for NN model compression. First, we suggest a Rotation-Invariant Quantization (RIQ) technique that utilizes a single parameter to quantize the entire NN model, yielding a different rate at each layer, i.e., mixed-precision quantization. Then, we prove that our rotation-invariant approach is optimal in terms of compression. We rigorously evaluate RIQ and demonstrate its capabilities on various models and tasks. For example, RIQ facilitates $\times 19.4$ and $\times 52.9$ compression ratios on pre-trained VGG dense and pruned models, respectively, with $<0.4\%$ accuracy degradation. Code is available in \url{https://github.com/ehaleva/RIQ}.

arxiv情報

著者 Joseph Kampeas,Yury Nahshan,Hanoch Kremer,Gil Lederman,Shira Zaloshinski,Zheng Li,Emir Haleva
発行日 2024-01-25 16:19:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, I.2.4, math.IT パーマリンク