Towards efficient keyword spotting using spike-based time difference encoders

要約

音声活性化アシスタントが広く使用されているため、エッジデバイスでのキーワードスポッティングがますます重要になっています。
ただし、その展開は、ターゲット組み込みシステムの極端な低電力制約によって制限されることがよくあります。
ここでは、キーワードスポッティングで時間差エンコーダー(TDE)パフォーマンスを調べます。
この最近のニューロンモデルは、瞬間周波数とスパイクカウントの時差をコードして、神経形成プロセッサで効率的なキーワードスポッティングを実行します。
フォーマント分解とスパイクへのレートベースのエンコードを使用して、音声桁のTidigitsデータセットを使用します。
3つのスパイキングニューラルネットワーク(SNNS)アーキテクチャを比較して、時空間信号を学習および分類します。
提案されているSNNアーキテクチャは、(1)フィードフォワードTDE、(2)フィードフォワードの電流ベースの漏れのある統合と発射(キューバ-lif)、または(3)再発キューバ-lifニューロンで構成される隠された層の変動を伴う3つの層で構成されています。
最初に、周波数が変換された桁のスパイク列車が時間領域に大量の情報を持っていることを示し、そのようなタスクの時間エンコードをより適切に活用することの重要性を強化します。
次に、同じ数のシナプス重みで3つのSNNをトレーニングして、精度とシナプス操作に基づいてパフォーマンスを定量化および比較します。
Feedforward TDEネットワーク(89%)の結果として得られる精度は、Feedforward Cuba-Lifネットワーク(71%)よりも高く、再発キューバ-Lifネットワーク(91%)に近いです。
ただし、FeedForward TDEベースのネットワークは、同じ量のシナプスを持つ再発キューバLIFネットワークよりも92%少ないシナプス操作を実行します。
さらに、TDEネットワークの結果は非常に解釈可能であり、データセット内の音声キーワードの頻度とタイムスケールの特徴と相関しています。
私たちの調査結果は、TDEが、時空間パターンのスケーラブルなイベント駆動型処理のための有望なニューロンモデルであることを示唆しています。

要約(オリジナル)

Keyword spotting in edge devices is becoming increasingly important as voice-activated assistants are widely used. However, its deployment is often limited by the extreme low-power constraints of the target embedded systems. Here, we explore the Temporal Difference Encoder (TDE) performance in keyword spotting. This recent neuron model encodes the time difference in instantaneous frequency and spike count to perform efficient keyword spotting with neuromorphic processors. We use the TIdigits dataset of spoken digits with a formant decomposition and rate-based encoding into spikes. We compare three Spiking Neural Networks (SNNs) architectures to learn and classify spatio-temporal signals. The proposed SNN architectures are made of three layers with variation in its hidden layer composed of either (1) feedforward TDE, (2) feedforward Current-Based Leaky Integrate-and-Fire (CuBa-LIF), or (3) recurrent CuBa-LIF neurons. We first show that the spike trains of the frequency-converted spoken digits have a large amount of information in the temporal domain, reinforcing the importance of better exploiting temporal encoding for such a task. We then train the three SNNs with the same number of synaptic weights to quantify and compare their performance based on the accuracy and synaptic operations. The resulting accuracy of the feedforward TDE network (89%) is higher than the feedforward CuBa-LIF network (71%) and close to the recurrent CuBa-LIF network (91%). However, the feedforward TDE-based network performs 92% fewer synaptic operations than the recurrent CuBa-LIF network with the same amount of synapses. In addition, the results of the TDE network are highly interpretable and correlated with the frequency and timescale features of the spoken keywords in the dataset. Our findings suggest that the TDE is a promising neuron model for scalable event-driven processing of spatio-temporal patterns.

arxiv情報

著者 Alejandro Pequeño-Zurro,Lyes Khacef,Stefano Panzeri,Elisabetta Chicca
発行日 2025-03-19 16:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.ET, cs.NE パーマリンク