RescueSNN: Enabling Reliable Executions on Spiking Neural Network Accelerators under Permanent Faults

要約

タイトル:RescueSNN:永続的な故障の下でスパイキングニューラルネットワークアクセラレータ上の信頼性のある実行を可能にする

要約:

– スパイキングニューラルネットワーク(SNN)の処理性能とエネルギー効率を最大化するため、リソースが制限された組み込みシステムで専用のハードウェアアクセラレータ/チップが使用されている。
– しかしながら、これらのSNNチップは永続的な故障に見舞われる可能性があり、重みメモリとニューロンの振る舞いの機能に影響を与え、潜在的に大きな精度低下やシステムの不具合を引き起こすことがある。
– このような永続的な故障は、製造プロセス中の製造欠陥から、ランタイム操作中のデバイス/トランジスタの損傷(摩耗によるものなど)から来る場合がある。
– しかし、SNNチップにおける永続的な故障の影響や、それに対する緩和技術はまだ十分に調査されていない。
– そのため、本研究は追加の再教育を必要とせずに、SNNチップの演算エンジン内の永続的な故障を緩和する新しい方法論であるRescueSNNを提案している。
– RescueSNNの主なアイデアは、(1)SNNの永続的な故障下での特性を分析し、(2)この分析を活用して有効な故障合意マッピング(FAM)を通じてSNNの故障許容性を向上させ、(3)FAMをサポートする軽量のハードウェア拡張を考案することである。
– FAM技術は、SNN演算エンジンの故障マップを活用して、(i)故障したメモリセルに重みビットをマッピングする際の重みの破損を最小限に抑え、(ii)SNN演算と処理データフローを考慮し、明らかに精度低下を引き起こさない故障したニューロンを選択的に使用して、精度とスループットを維持することができる。
– 実験結果は、RescueSNNが故障率が高い(可能な故障場所の0.5)場合でも、故障時にSNNを実行するよりも精度を最大80%向上させ、スループットの低下を25%以下に維持できることを示している。

要約(オリジナル)

To maximize the performance and energy efficiency of Spiking Neural Network (SNN) processing on resource-constrained embedded systems, specialized hardware accelerators/chips are employed. However, these SNN chips may suffer from permanent faults which can affect the functionality of weight memory and neuron behavior, thereby causing potentially significant accuracy degradation and system malfunctioning. Such permanent faults may come from manufacturing defects during the fabrication process, and/or from device/transistor damages (e.g., due to wear out) during the run-time operation. However, the impact of permanent faults in SNN chips and the respective mitigation techniques have not been thoroughly investigated yet. Toward this, we propose RescueSNN, a novel methodology to mitigate permanent faults in the compute engine of SNN chips without requiring additional retraining, thereby significantly cutting down the design time and retraining costs, while maintaining the throughput and quality. The key ideas of our RescueSNN methodology are (1) analyzing the characteristics of SNN under permanent faults; (2) leveraging this analysis to improve the SNN fault-tolerance through effective fault-aware mapping (FAM); and (3) devising lightweight hardware enhancements to support FAM. Our FAM technique leverages the fault map of SNN compute engine for (i) minimizing weight corruption when mapping weight bits on the faulty memory cells, and (ii) selectively employing faulty neurons that do not cause significant accuracy degradation to maintain accuracy and throughput, while considering the SNN operations and processing dataflow. The experimental results show that our RescueSNN improves accuracy by up to 80% while maintaining the throughput reduction below 25% in high fault rate (e.g., 0.5 of the potential fault locations), as compared to running SNNs on the faulty chip without mitigation.

arxiv情報

著者 Rachmad Vidya Wicaksana Putra,Muhammad Abdullah Hanif,Muhammad Shafique
発行日 2023-04-08 15:24:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.AR, cs.LG, cs.NE パーマリンク