TCJA-SNN: Temporal-Channel Joint Attention for Spiking Neural Networks

要約

スパイキング ニューラル ネットワーク (SNN) は、その生物学的妥当性、エネルギー効率、強力な時空間情報表現能力により、幅広い関心を集めています。
ニューラル ネットワークのパフォーマンス向上におけるアテンション メカニズムの重要な役割を考慮すると、SNN とアテンション メカニズムの統合は、エネルギー効率の高い高性能コンピューティング パラダイムを提供する可能性を示します。
我々は、TCJA-SNN と呼ばれる、SNN 用の新しい時間チャネル共同注意メカニズムを提案します。
提案された TCJA-SNN フレームワークは、空間的次元と時間的次元の両方からスパイク シーケンスの重要性を効果的に評価できます。
より具体的には、私たちの重要な技術的貢献は次のとおりです。 1) スクイーズ操作を使用して、スパイク ストリームを平均行列に圧縮します。
次に、効率的な 1D 畳み込みに基づく 2 つのローカル アテンション メカニズムを活用して、時間レベルとチャネル レベルで個別に包括的な特徴抽出を促進します。
2) 時間スコープとチャネル スコープの間の相互依存関係をモデル化する新しいアプローチとして Cross Convolutional Fusion (CCF) 層を導入します。
この層は、これら 2 つの次元の独立性を打ち破り、フィーチャ間の相互作用を可能にします。
実験結果は、提案された TCJA-SNN が、Fashion-MNIST、CIFAR10-DVS、N-Caltech 101、および DVS128 Gesture を含む標準的な静的データセットおよび神経形態データセットで最大 15.7% の精度で SOTA を上回ることを示しています。
さらに、バリエーション オートエンコーダーを利用して、TCJA-SNN フレームワークを画像生成タスクに適用します。
私たちの知る限り、この研究は、画像の分類と生成タスクに SNN アテンション メカニズムが採用された最初の例です。
特に、私たちのアプローチは両方のドメインで SOTA パフォーマンスを達成し、この分野で大きな進歩を確立しました。
コードは https://github.com/ridgerchu/TCJA で入手できます。

要約(オリジナル)

Spiking Neural Networks (SNNs) are attracting widespread interest due to their biological plausibility, energy efficiency, and powerful spatio-temporal information representation ability. Given the critical role of attention mechanisms in enhancing neural network performance, the integration of SNNs and attention mechanisms exhibits potential to deliver energy-efficient and high-performance computing paradigms. We present a novel Temporal-Channel Joint Attention mechanism for SNNs, referred to as TCJA-SNN. The proposed TCJA-SNN framework can effectively assess the significance of spike sequence from both spatial and temporal dimensions. More specifically, our essential technical contribution lies on: 1) We employ the squeeze operation to compress the spike stream into an average matrix. Then, we leverage two local attention mechanisms based on efficient 1D convolutions to facilitate comprehensive feature extraction at the temporal and channel levels independently. 2) We introduce the Cross Convolutional Fusion (CCF) layer as a novel approach to model the inter-dependencies between the temporal and channel scopes. This layer breaks the independence of these two dimensions and enables the interaction between features. Experimental results demonstrate that the proposed TCJA-SNN outperforms SOTA by up to 15.7% accuracy on standard static and neuromorphic datasets, including Fashion-MNIST, CIFAR10-DVS, N-Caltech 101, and DVS128 Gesture. Furthermore, we apply the TCJA-SNN framework to image generation tasks by leveraging a variation autoencoder. To the best of our knowledge, this study is the first instance where the SNN-attention mechanism has been employed for image classification and generation tasks. Notably, our approach has achieved SOTA performance in both domains, establishing a significant advancement in the field. Codes are available at https://github.com/ridgerchu/TCJA.

arxiv情報

著者 Rui-Jie Zhu,Malu Zhang,Qihang Zhao,Haoyu Deng,Yule Duan,Liang-Jian Deng
発行日 2024-04-17 17:36:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク