Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks

要約

スパイキング ニューラル ネットワーク (SNN) は、生物学にヒントを得たニューラル ネットワーク インフラストラクチャで、最近大きな注目を集めています。
バイナリ スパイク アクティベーションを利用して情報を送信することで、乗算を加算に置き換え、高いエネルギー効率を実現します。
ただし、SNN のトレーニングには、スパイクの発射プロセスの勾配が定義されていないため、直接的な課題が生じます。
これまでの研究では、バックプロパゲーション中の発火プロセスを置き換える代替関数を使用するさまざまな代理勾配トレーニング方法が採用されてきましたが、これらのアプローチは本質的な問題である勾配消失を無視しています。
この問題に対処するために、私たちは論文でショートカット逆伝播法を提案します。これは、損失から浅い層に勾配を直接送信することを提唱しています。
これにより、勾配を浅い層に直接提示できるようになり、勾配消失の問題が大幅に軽減されます。
さらに、この方法では推論段階で負担がかかりません。
最終的な精度とトレーニングの容易さのバランスをとるために、進化的トレーニング フレームワークも提案し、トレーニング エポックとともに動的に変化するバランス係数を誘導することによってそれを実装します。これにより、ネットワークのパフォーマンスがさらに向上します。
いくつかの一般的なネットワーク構造を使用して静的および動的データセットに対して行われた広範な実験により、私たちの方法が常に最先端の方法よりも優れていることが明らかになりました。

要約(オリジナル)

The Spiking Neural Network (SNN) is a biologically inspired neural network infrastructure that has recently garnered significant attention. It utilizes binary spike activations to transmit information, thereby replacing multiplications with additions and resulting in high energy efficiency. However, training an SNN directly poses a challenge due to the undefined gradient of the firing spike process. Although prior works have employed various surrogate gradient training methods that use an alternative function to replace the firing process during back-propagation, these approaches ignore an intrinsic problem: gradient vanishing. To address this issue, we propose a shortcut back-propagation method in our paper, which advocates for transmitting the gradient directly from the loss to the shallow layers. This enables us to present the gradient to the shallow layers directly, thereby significantly mitigating the gradient vanishing problem. Additionally, this method does not introduce any burden during the inference phase. To strike a balance between final accuracy and ease of training, we also propose an evolutionary training framework and implement it by inducing a balance coefficient that dynamically changes with the training epoch, which further improves the network’s performance. Extensive experiments conducted over static and dynamic datasets using several popular network structures reveal that our method consistently outperforms state-of-the-art methods.

arxiv情報

著者 Yufei Guo,Yuanpei Chen
発行日 2024-01-09 10:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク