Stabilizing the LIF Neuron Training

要約

スパイク・ニューロモーフィック・コンピューティングは、バイナリ・アクティビティを用いて人工知能のエネルギー効率を向上させる。しかし、バイナリ・アクティビティは非平滑であるため、ディープラーニングとの性能差を縮めるためには、代理勾配(SG)として知られる近似勾配が必要となる。いくつかのSGが文献で提案されているが、与えられたタスクとネットワークに最適なSGを決定する方法は依然として不明である。ほとんどのSG形状では、ハイパーパラメータの探索にコストがかかった後、良好な性能を達成することができる。従って、我々は、将来的にグリッド探索の必要性を減らすために、様々なストレステストにわたって最良のSGを実験的かつ理論的に定義することを目的とする。この研究のギャップを理解するために、より複雑なタスクとネットワークでは、より慎重なSGの選択が必要であることを示す。そこで我々は、最も一般的なスパイキングアーキテクチャであるLeaky Integrate and Fire (LIF)の学習前に、初期化とSG形状を選択する安定性に基づいた理論的手法を設計した。我々の安定性手法は、ニューロモルフィック文献では非標準的である、初期化時に高い発火率を使用することを示唆しているため、我々は、高い初期発火率と、徐々に導入されるスパース性を促す損失項を組み合わせることで、SG形状に応じて、より良い汎化を導くことができることを示す。我々の安定性に基づく理論的な解法は、実験的に精度が向上するSGと初期化を発見する。また、SGの減衰、シャープネス、テールファットネスに関する広範なグリッド探索の必要性を低減するために、どのように利用できるかを示す。

要約(オリジナル)

Spiking Neuromorphic Computing uses binary activity to improve Artificial Intelligence energy efficiency. However, the non-smoothness of binary activity requires approximate gradients, known as Surrogate Gradients (SG), to close the performance gap with Deep Learning. Several SG have been proposed in the literature, but it remains unclear how to determine the best SG for a given task and network. Good performance can be achieved with most SG shapes, after a costly search of hyper-parameters. Thus, we aim at experimentally and theoretically define the best SG across different stress tests, to reduce future need of grid search. To understand the gap for this line of work, we show that more complex tasks and networks need more careful choice of SG, even if overall the derivative of the fast sigmoid outperforms other SG across tasks and networks, for a wide range of learning rates. We therefore design a stability based theoretical method to choose initialization and SG shape before training on the most common spiking architecture, the Leaky Integrate and Fire (LIF). Since our stability method suggests the use of high firing rates at initialization, which is non-standard in the neuromorphic literature, we show that high initial firing rates, combined with a sparsity encouraging loss term introduced gradually, can lead to better generalization, depending on the SG shape. Our stability based theoretical solution, finds a SG and initialization that experimentally result in improved accuracy. We show how it can be used to reduce the need of extensive grid-search of dampening, sharpness and tail-fatness of the SG.

arxiv情報

著者 Luca Herranz-Celotti,Jean Rouat
発行日 2023-11-03 12:04:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.NE パーマリンク