EPIM: Efficient Processing-In-Memory Accelerators based on Epitome

要約

Processing-In-Memory (PIM) アクセラレータ上で大規模ニューラル ネットワークを利用すると、オンチップ メモリ容量に制約があるため、課題に直面します。
この問題に取り組むために、現在の研究では、畳み込みニューラル ネットワーク (CNN) のサイズを削減するモデル圧縮アルゴリズムを検討しています。
これらのアルゴリズムのほとんどは、サイズを縮小したパラメータでニューラル演算子を表現すること (例: 量子化)、またはニューラル演算子の最適な組み合わせを検索すること (例: ニューラル アーキテクチャの検索) を目的としています。
PIM アクセラレータの仕様に合わせてニューラル オペレーターを設計することは、さらなる研究が必要な領域です。
このペーパーでは、PIM アクセラレータ (EPIM) 用のメモリ効率の高い CNN オペレーターを作成するために、畳み込みのような機能を提供する軽量ニューラル オペレーターである Epitome を紹介します。
ソフトウェア側では、PIM アクセラレータ上でエピトームのレイテンシーとエネルギーを評価し、ハードウェア効率を高めるために PIM を認識したレイヤーごとの設計手法を導入します。
エピトームを意識した量子化を適用して、エピトームのサイズをさらに縮小します。
ハードウェア側では、現在の PIM アクセラレータのデータパスを変更してエピトームに対応し、特徴マップの再利用手法を実装して計算コストを削減します。
実験結果では、当社の 3 ビット量子化 EPIM-ResNet50 が ImageNet 上で 71.59% のトップ 1 精度を達成し、クロスバー領域が 30.65 分の 1 に削減されることが明らかになりました。
EPIM は、PIM の最先端のプルーニング手法を上回ります。

要約(オリジナル)

The utilization of large-scale neural networks on Processing-In-Memory (PIM) accelerators encounters challenges due to constrained on-chip memory capacity. To tackle this issue, current works explore model compression algorithms to reduce the size of Convolutional Neural Networks (CNNs). Most of these algorithms either aim to represent neural operators with reduced-size parameters (e.g., quantization) or search for the best combinations of neural operators (e.g., neural architecture search). Designing neural operators to align with PIM accelerators’ specifications is an area that warrants further study. In this paper, we introduce the Epitome, a lightweight neural operator offering convolution-like functionality, to craft memory-efficient CNN operators for PIM accelerators (EPIM). On the software side, we evaluate epitomes’ latency and energy on PIM accelerators and introduce a PIM-aware layer-wise design method to enhance their hardware efficiency. We apply epitome-aware quantization to further reduce the size of epitomes. On the hardware side, we modify the datapath of current PIM accelerators to accommodate epitomes and implement a feature map reuse technique to reduce computation cost. Experimental results reveal that our 3-bit quantized EPIM-ResNet50 attains 71.59% top-1 accuracy on ImageNet, reducing crossbar areas by 30.65 times. EPIM surpasses the state-of-the-art pruning methods on PIM.

arxiv情報

著者 Chenyu Wang,Zhen Dong,Daquan Zhou,Zhenhua Zhu,Yu Wang,Jiashi Feng,Kurt Keutzer
発行日 2024-04-17 14:09:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.LG パーマリンク