IMAGINE: An 8-to-1b 22nm FD-SOI Compute-In-Memory CNN Accelerator With an End-to-End Analog Charge-Based 0.15-8POPS/W Macro Featuring Distribution-Aware Data Reshaping

要約

チャージドメイン コンピューティング イン メモリ (CIM) SRAM は、最近、エッジでサブ 8b 畳み込みニューラル ネットワーク (CNN) を処理するためのコンピューティング効率と精度の間の魅力的な妥協案となっています。
しかし、これらは一般に固定のドット積 (DP) 電圧スイングを利用するため、データ依存のクリッピングまたは切り捨て効果により有効な ADC ビットが失われ、貴重な変換エネルギーと計算精度が無駄になります。
これを克服するために、22nm FD-SOI のワークロード適応型 1 ~ 8b CIM-CNN アクセラレータである IMAGINE を紹介します。
これは、電力を大量に消費する DAC を回避する入力シリアル、重み並列累算に基づくマルチビット DP を備えた 1152×256 エンドツーエンドの充電ベースのマクロを導入しています。
適応スイングは、チャネルごとの DP アレイ分割とアナログ バッチ正規化 (ABN) の線形 ADC 内実装を組み合わせることによって実現され、分布を意識したデータ再形成が行われます。
CIM 対応の CNN トレーニング フレームワーク内にポストシリコン等価ノイズを含めることにより、重要な設計制約が緩和されます。
測定結果は、0.3/0.6V で 40TOPS/W という 8b システムレベルのエネルギー効率を示し、MNIST および CIFAR-10 で同等の精度を備えています。
さらに、187kB/mm2 マクロのピークエネルギー効率と面積効率はそれぞれ最大 0.15 ~ 8POPS/W と 2.6 ~ 154TOPS/mm2 に達し、8 対 1b の計算精度に対応します。
これらの結果は、以前の課金ベースの設計を 3 ~ 5 倍上回っており、線形のメモリ内再スケーリングを提供する最初の成果です。

要約(オリジナル)

Charge-domain compute-in-memory (CIM) SRAMs have recently become an enticing compromise between computing efficiency and accuracy to process sub-8b convolutional neural networks (CNNs) at the edge. Yet, they commonly make use of a fixed dot-product (DP) voltage swing, which leads to a loss in effective ADC bits due to data-dependent clipping or truncation effects that waste precious conversion energy and computing accuracy. To overcome this, we present IMAGINE, a workload-adaptive 1-to-8b CIM-CNN accelerator in 22nm FD-SOI. It introduces a 1152×256 end-to-end charge-based macro with a multi-bit DP based on an input-serial, weight-parallel accumulation that avoids power-hungry DACs. An adaptive swing is achieved by combining a channel-wise DP array split with a linear in-ADC implementation of analog batch-normalization (ABN), obtaining a distribution-aware data reshaping. Critical design constraints are relaxed by including the post-silicon equivalent noise within a CIM-aware CNN training framework. Measurement results showcase an 8b system-level energy efficiency of 40TOPS/W at 0.3/0.6V, with competitive accuracies on MNIST and CIFAR-10. Moreover, the peak energy and area efficiencies of the 187kB/mm2 macro respectively reach up to 0.15-8POPS/W and 2.6-154TOPS/mm2, scaling with the 8-to-1b computing precision. These results exceed previous charge-based designs by 3-to-5x while being the first work to provide linear in-memory rescaling.

arxiv情報

著者 Adrian Kneip,Martin Lefebvre,Pol Maistriaux,David Bol
発行日 2024-12-27 17:18:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR パーマリンク