Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition

要約

高密度で実数値の応答を生成する従来の人工ニューロンと比較して、生物学に着想を得たスパイキング ニューロンはまばらなバイナリ情報を送信するため、エネルギー効率の高い実装にもつながる可能性があります。
最近の研究によると、スパイキング ニューラル ネットワークは、代理勾配法を使用して標準の再帰型ニューラル ネットワークのようにトレーニングできることが示されています。
彼らは、音声コマンド認識タスクで有望な結果を示しています。
同じ手法を使用して、それらが大語彙の連続音声認識に拡張可能であることを示します。この場合、パフォーマンスをわずかに低下させるだけで、エンコーダーの LSTM を置き換えることができます。
これは、より複雑なシーケンスからシーケンスへのタスクに適用できる可能性があることを示唆しています。
さらに、反復的な非スパイクの対応物とは対照的に、ゲートを使用する必要なく、爆発する勾配の問題に対する堅牢性を示します。

要約(オリジナル)

Compared to conventional artificial neurons that produce dense and real-valued responses, biologically-inspired spiking neurons transmit sparse and binary information, which can also lead to energy-efficient implementations. Recent research has shown that spiking neural networks can be trained like standard recurrent neural networks using the surrogate gradient method. They have shown promising results on speech command recognition tasks. Using the same technique, we show that they are scalable to large vocabulary continuous speech recognition, where they are capable of replacing LSTMs in the encoder with only minor loss of performance. This suggests that they may be applicable to more involved sequence-to-sequence tasks. Moreover, in contrast to their recurrent non-spiking counterparts, they show robustness to exploding gradient problems without the need to use gates.

arxiv情報

著者 Alexandre Bittar,Philip N. Garner
発行日 2023-02-16 08:45:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.NE, cs.SD, eess.AS パーマリンク