要約
大規模な言語モデルのサイズが拡大し続けるにつれて、それを実行するために必要な計算リソースも増加します。
スパイキング ニューラル ネットワーク (SNN) は、スパースおよびイベント駆動型のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する、ディープ ラーニングへのエネルギー効率の高いアプローチとして登場しました。
SNN は、多くのコンピューター ビジョン タスクにおいてノンスパイク モデルと競合するようになりましたが、トレーニングがより困難であることも証明されています。
その結果、そのパフォーマンスは現代の深層学習に比べて遅れており、言語生成における SNN の有効性はまだ確認されていません。
この論文では、Receptance Weighted Key Value (RWKV) 言語モデルに触発されて、バイナリのイベント駆動型スパイキング アクティベーション ユニットを備えた生成言語モデルである「SpikeGPT」の実装に成功しました。
提案されたモデルを 2 つのモデル バリアント (45M パラメーターと 216M パラメーター) でトレーニングします。
私たちの知る限り、SpikeGPT はこれまででバックプロパゲーションでトレーニングされた最大の SNN モデルであり、自然言語の生成と理解の両方に適しています。
これは、transformer ブロックを変更してマルチヘッドの自己注意を置き換え、シーケンスの長さを増加させながら二次計算の複雑さ O(N^2) を線形計算の複雑さ O(N) に減らすことで実現します。
代わりに、入力トークンは (通常の SNN と同様に) アテンション メカニズムに順次ストリーミングされます。
私たちの予備実験では、SpikeGPT が、スパースなイベント駆動型アクティベーションを利用できるニューロモーフィック ハードウェアで処理すると、20 分の 1 の操作を維持しながら、テスト済みのベンチマークで非スパイク モデルとの競争力を維持できることが示されました。
要約(オリジナル)
As the size of large language models continue to scale, so does the computational resources required to run it. Spiking Neural Networks (SNNs) have emerged as an energy-efficient approach to deep learning that leverage sparse and event-driven activations to reduce the computational overhead associated with model inference. While they have become competitive with non-spiking models on many computer vision tasks, SNNs have also proven to be more challenging to train. As a result, their performance lags behind modern deep learning, and we are yet to see the effectiveness of SNNs in language generation. In this paper, inspired by the Receptance Weighted Key Value (RWKV) language model, we successfully implement `SpikeGPT’, a generative language model with binary, event-driven spiking activation units. We train the proposed model on two model variants: 45M and 216M parameters. To the best of our knowledge, SpikeGPT is the largest backpropagation-trained SNN model to date, rendering it suitable for both the generation and comprehension of natural language. We achieve this by modifying the transformer block to replace multi-head self attention to reduce quadratic computational complexity O(N^2) to linear complexity O(N) with increasing sequence length. Input tokens are instead streamed in sequentially to our attention mechanism (as with typical SNNs). Our preliminary experiments show that SpikeGPT remains competitive with non-spiking models on tested benchmarks, while maintaining 20x fewer operations when processed on neuromorphic hardware that can leverage sparse, event-driven activations.
arxiv情報
著者 | Rui-Jie Zhu,Qihang Zhao,Guoqi Li,Jason K. Eshraghian |
発行日 | 2023-06-26 02:38:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google