SpikingSSMs: Learning Long Sequences with Sparse and Parallel Spiking State Space Models

要約

低エネルギー消費ネットワークとして知られるスパイキング ニューラル ネットワーク (SNN) は、過去数十年で大きな注目を集めてきました。
SNN は視覚タスクに関して人工ニューラル ネットワーク (ANN) との競争を強めていますが、その固有の時間ダイナミクスにもかかわらず、長いシーケンス タスクにはほとんど使用されていません。
この研究では、状態空間モデル (SSM) の系列学習能力を活用して、長い系列学習のためのスパイキング状態空間モデル (SpikingSSM) を開発します。
樹状ニューロン構造にヒントを得て、ニューロンのダイナミクスを元の SSM ブロックと階層的に統合し、同時にスパースなシナプス計算を実現します。
さらに、イベント駆動型のニューロンダイナミクスと並列コンピューティングの矛盾を解決するために、リセット後の膜電位を正確に予測し、学習可能な閾値と互換性のある軽量のサロゲートダイナミックネットワークを提案します。これにより、従来と比較してトレーニング速度の桁違いの加速が可能になります。
反復メソッド。
長距離アリーナのベンチマーク タスクでは、SpikingSSM は、平均 90% のネットワーク スパース性を実現しながら、最先端の SSM に匹敵するパフォーマンスを達成します。
言語モデリングに関して、私たちのネットワークは、WikiText-103 データセット上の既存のスパイキング大規模言語モデル (spikingLLM) をわずか 3 分の 1 のモデル サイズで大幅に上回り、低計算コストの LLM のバックボーン アーキテクチャとしての可能性を示しています。

要約(オリジナル)

Known as low energy consumption networks, spiking neural networks (SNNs) have gained a lot of attention within the past decades. While SNNs are increasing competitive with artificial neural networks (ANNs) for vision tasks, they are rarely used for long sequence tasks, despite their intrinsic temporal dynamics. In this work, we develop spiking state space models (SpikingSSMs) for long sequence learning by leveraging on the sequence learning abilities of state space models (SSMs). Inspired by dendritic neuron structure, we hierarchically integrate neuronal dynamics with the original SSM block, meanwhile realizing sparse synaptic computation. Furthermore, to solve the conflict of event-driven neuronal dynamics with parallel computing, we propose a light-weight surrogate dynamic network which accurately predicts the after-reset membrane potential and compatible to learnable thresholds, enabling orders of acceleration in training speed compared with conventional iterative methods. On the long range arena benchmark task, SpikingSSM achieves competitive performance to state-of-the-art SSMs meanwhile realizing on average 90\% of network sparsity. On language modeling, our network significantly surpasses existing spiking large language models (spikingLLMs) on the WikiText-103 dataset with only a third of the model size, demonstrating its potential as backbone architecture for low computation cost LLMs.

arxiv情報

著者 Shuaijie Shen,Chao Wang,Renzhuo Huang,Yan Zhong,Qinghai Guo,Zhichao Lu,Jianguo Zhang,Luziwei Leng
発行日 2024-08-27 09:35:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.NE パーマリンク