SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms

要約

人間の脳に似たエネルギー効率の高い人工知能を目指して、生物からインスピレーションを得たスパイキング ニューラル ネットワーク (SNN) には、生物学的妥当性、イベント駆動型のスパース性、バイナリの活性化という利点があります。
最近、大規模な言語モデルは有望な一般化機能を示しており、より一般的なスパイク駆動モデルを探索することが貴重な問題となっています。
ただし、既存の SNN のバイナリ スパイクは適切なセマンティック情報をエンコードできず、一般化には技術的な課題が生じています。
この研究は、識別的タスクと生成的タスクの両方を含む、一般的な言語タスクのための最初の完全なスパイクメカニズムを提案しています。
{0,1} レベルの以前のスパイクとは異なり、SNN の加算の性質を維持しながら、双方向、弾性振幅、および弾性周波数エンコーディングを備えたより一般的なスパイク定式化を提案します。
単一のタイム ステップで、スパイクは方向と振幅の情報によって強調されます。
スパイクの頻度に関しては、スパイクの発射速度を制御する戦略が適切に設計されています。
この弾性バイスパイク メカニズムを SpikeLM という名前で言語モデリングに組み込みます。
これは、完全なスパイク駆動モデルを使用して一般的な言語タスクを処理するのが初めてであり、これまで可能であったよりもはるかに高い精度を達成します。
SpikeLM は、言語モデリングにおける SNN と ANN の間のパフォーマンスのギャップも大幅に埋めます。
私たちのコードは https://github.com/Xingrun-Xing/SpikeLM で入手できます。

要約(オリジナル)

Towards energy-efficient artificial intelligence similar to the human brain, the bio-inspired spiking neural networks (SNNs) have advantages of biological plausibility, event-driven sparsity, and binary activation. Recently, large-scale language models exhibit promising generalization capability, making it a valuable issue to explore more general spike-driven models. However, the binary spikes in existing SNNs fail to encode adequate semantic information, placing technological challenges for generalization. This work proposes the first fully spiking mechanism for general language tasks, including both discriminative and generative ones. Different from previous spikes with {0,1} levels, we propose a more general spike formulation with bi-directional, elastic amplitude, and elastic frequency encoding, while still maintaining the addition nature of SNNs. In a single time step, the spike is enhanced by direction and amplitude information; in spike frequency, a strategy to control spike firing rate is well designed. We plug this elastic bi-spiking mechanism in language modeling, named SpikeLM. It is the first time to handle general language tasks with fully spike-driven models, which achieve much higher accuracy than previously possible. SpikeLM also greatly bridges the performance gap between SNNs and ANNs in language modeling. Our code is available at https://github.com/Xingrun-Xing/SpikeLM.

arxiv情報

著者 Xingrun Xing,Zheng Zhang,Ziyi Ni,Shitao Xiao,Yiming Ju,Siqi Fan,Yequan Wang,Jiajun Zhang,Guoqi Li
発行日 2024-06-05 13:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.NE パーマリンク