MVQ:Towards Efficient DNN Compression and Acceleration with Masked Vector Quantization

要約

ベクトル量子化 (VQ) は、ストレージ コストとハードウェア アクセラレータの重み負荷データ幅を削減できる、ハードウェアに優しい DNN 圧縮方法です。
ただし、従来の VQ 技術では、重要な重みが十分に保存されていないため、精度が大幅に低下します。
この問題に取り組むために、MVQ と呼ばれる新しいアプローチが提案されています。これは、限られた数のコードワードで重要な重みをより適切に近似することを目的としています。
アルゴリズム レベルでは、私たちのアプローチは N:M 枝刈りを通じて重要度の低い重みを削除し、マスクされた K 平均法アルゴリズムによって残りの重みとコードワードの間のベクトル クラスタリング エラーを最小限に抑えます。
枝刈りされていない重みとコードワードの間の距離のみが計算され、それがコードワードの更新に使用されます。
アーキテクチャ レベルでは、当社のアクセラレータは EWS (拡張重み定常) CNN アクセラレータにベクトル量子化を実装し、マスクされたベクトル量子化によってもたらされる利点を最大化するためのスパース シストリック アレイ設計を提案しています。\\ 私たちのアルゴリズムは、画像分類のさまざまなモデルで検証されています。
オブジェクト検出およびセグメンテーションタスク。
実験結果は、MVQ が同等の圧縮率で従来のベクトル量子化方法よりも優れているだけでなく、FLOP も削減していることを示しています。
ASIC 評価では、ベースの EWS アクセラレータと比較して、MVQ アクセラレータはエネルギー効率を 2.3$\times$ 向上させ、シストリック アレイのサイズを 55\% 削減します。
以前のスパース アクセラレータと比較して、MVQ は 1.73$\times$ 高いエネルギー効率を達成します。

要約(オリジナル)

Vector quantization(VQ) is a hardware-friendly DNN compression method that can reduce the storage cost and weight-loading datawidth of hardware accelerators. However, conventional VQ techniques lead to significant accuracy loss because the important weights are not well preserved. To tackle this problem, a novel approach called MVQ is proposed, which aims at better approximating important weights with a limited number of codewords. At the algorithm level, our approach removes the less important weights through N:M pruning and then minimizes the vector clustering error between the remaining weights and codewords by the masked k-means algorithm. Only distances between the unpruned weights and the codewords are computed, which are then used to update the codewords. At the architecture level, our accelerator implements vector quantization on an EWS (Enhanced weight stationary) CNN accelerator and proposes a sparse systolic array design to maximize the benefits brought by masked vector quantization.\\ Our algorithm is validated on various models for image classification, object detection, and segmentation tasks. Experimental results demonstrate that MVQ not only outperforms conventional vector quantization methods at comparable compression ratios but also reduces FLOPs. Under ASIC evaluation, our MVQ accelerator boosts energy efficiency by 2.3$\times$ and reduces the size of the systolic array by 55\% when compared with the base EWS accelerator. Compared to the previous sparse accelerators, MVQ achieves 1.73$\times$ higher energy efficiency.

arxiv情報

著者 Shuaiting Li,Chengxuan Wang,Juncan Deng,Zeyu Wang,Zewen Ye,Zongsheng Wang,Haibin Shen,Kejie Huang
発行日 2024-12-16 08:54:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CV パーマリンク