SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast, Energy-Efficient Inference of Integer-Quantized CNNs

要約

CNN 推論タスクの高速化では、通常、ベクトル ドット積 (VDP) 演算に変換される畳み込み演算が使用されます。
いくつかのフォトニック マイクロリング共振器 (MRR) ベースのハードウェア アーキテクチャが提案されており、整数量子化 CNN を高速化し、電子的な対応物と比較して非常に高いスループットとエネルギー効率を実現しています。
ただし、既存のフォトニック MRR ベースのアナログ アクセラレータは、達成可能な入力/重み精度と VDP 操作サイズの間に非常に強いトレードオフを示します。これにより、4 ビット以上の量子化された入力/重み精度で達成可能な VDP 操作サイズが大幅に制限されます。
制限された VDP 操作サイズは、最終的にコンピューティング スループットを抑制し、達成可能なパフォーマンスの利点を大幅に減らします。
この欠点に対処するために、ストキャスティクス コンピューティングと MRR ベースの CNN アクセラレータの統合を初めて提示します。
確率計算の生来の精度の柔軟性を活用するために、MRR ベースの光学確率乗数 (OSM) を発明しました。
高密度波長分割多重化を使用してカスケード方式で複数の OSM を採用し、新しい確率的コンピューティング ベースの光ニューラル ネットワーク アクセラレータ (SCONNA) を構築します。
SCONNA は、高精度の量子化された CNN の推論を加速するために、非常に高いスループットとエネルギー効率を達成します。
8 ビットの入力/重み精度での 4 つの最新の CNN の推論に対する当社の評価は、SCONNA が 1 秒あたりのフレーム数 (FPS)、FPS/W、および FPS/W/ で最大 66.5x、90x、および 91x の改善を提供することを示しています。
mm2、それぞれ平均で、前の研究からの 2 つのフォトニック MRR ベースのアナログ CNN アクセラレータで、トップ 1 の精度低下は大規模な CNN で最大 0.4%、小規模な CNN で最大 1.5% です。
SCONNA およびその他のアクセラレーター (https://github.com/uky-UCAT/SC_ONN_SIM.git) を評価するために、トランザクション レベルのイベント駆動型の Python ベースのシミュレーターを開発しました。

要約(オリジナル)

The acceleration of a CNN inference task uses convolution operations that are typically transformed into vector-dot-product (VDP) operations. Several photonic microring resonators (MRRs) based hardware architectures have been proposed to accelerate integer-quantized CNNs with remarkably higher throughput and energy efficiency compared to their electronic counterparts. However, the existing photonic MRR-based analog accelerators exhibit a very strong trade-off between the achievable input/weight precision and VDP operation size, which severely restricts their achievable VDP operation size for the quantized input/weight precision of 4 bits and higher. The restricted VDP operation size ultimately suppresses computing throughput to severely diminish the achievable performance benefits. To address this shortcoming, we for the first time present a merger of stochastic computing and MRR-based CNN accelerators. To leverage the innate precision flexibility of stochastic computing, we invent an MRR-based optical stochastic multiplier (OSM). We employ multiple OSMs in a cascaded manner using dense wavelength division multiplexing, to forge a novel Stochastic Computing based Optical Neural Network Accelerator (SCONNA). SCONNA achieves significantly high throughput and energy efficiency for accelerating inferences of high-precision quantized CNNs. Our evaluation for the inference of four modern CNNs at 8-bit input/weight precision indicates that SCONNA provides improvements of up to 66.5x, 90x, and 91x in frames-per-second (FPS), FPS/W and FPS/W/mm2, respectively, on average over two photonic MRR-based analog CNN accelerators from prior work, with Top-1 accuracy drop of only up to 0.4% for large CNNs and up to 1.5% for small CNNs. We developed a transaction-level, event-driven python-based simulator for the evaluation of SCONNA and other accelerators (https://github.com/uky-UCAT/SC_ONN_SIM.git).

arxiv情報

著者 Sairam Sri Vatsavai,Venkata Sai Praneeth Karempudi,Ishan Thakkar,Ahmad Salehi,Todd Hastings
発行日 2023-02-14 13:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.ET, cs.LG パーマリンク