S3TC: Spiking Separated Spatial and Temporal Convolutions with Unsupervised STDP-based Learning for Action Recognition

要約

ビデオ分析は、近年大きな注目を集めているコンピューター ビジョンの主要なタスクです。
ビデオ分析の現在の最先端のパフォーマンスは、計算コストが高く、トレーニングに大量のラベル付きデータを必要とするディープ ニューラル ネットワーク (DNN) によって実現されています。
スパイキング ニューラル ネットワーク (SNN) は、ニューロモーフィック ハードウェアに実装すると、通常の非スパイク ネットワークよりも計算コストが大幅に (数千倍) 低くなります。
これらは、3D 畳み込みスパイキング ニューラル ネットワーク (3D CSNN) などの手法によるビデオ分析に使用されています。
ただし、これらのネットワークには、スパイク 2D CSNN と比較して、パラメーターの数が大幅に多くなります。
これにより、計算コストが増加するだけでなく、ニューロモーフィック ハードウェアを使用してこれらのネットワークを実装することがさらに困難になります。
この研究では、スパイク タイミング依存可塑性 (STDP) ルールを使用して教師なし方法でトレーニングされた CSNN を使用し、スパイクの数を減らすために、スパイク分離空間時間畳み込み (S3TC) を初めて導入します。
ビデオ分析に必要なパラメータ。
この教師なし学習には、トレーニングに大量のラベル付きデータを必要としないという利点があります。
単一の時空間スパイク畳み込みを空間スパイク畳み込みと時間スパイキング畳み込みに因数分解すると、ネットワークのパラメーターの数が減少します。
KTH、Weizmann、IXMAS データセットを使用してネットワークをテストし、S3TC がビデオから時空間情報を正常に抽出しながら、出力スパイク アクティビティを増加させ、スパイキング 3D コンボリューションよりも優れたパフォーマンスを発揮することを示しました。

要約(オリジナル)

Video analysis is a major computer vision task that has received a lot of attention in recent years. The current state-of-the-art performance for video analysis is achieved with Deep Neural Networks (DNNs) that have high computational costs and need large amounts of labeled data for training. Spiking Neural Networks (SNNs) have significantly lower computational costs (thousands of times) than regular non-spiking networks when implemented on neuromorphic hardware. They have been used for video analysis with methods like 3D Convolutional Spiking Neural Networks (3D CSNNs). However, these networks have a significantly larger number of parameters compared with spiking 2D CSNN. This, not only increases the computational costs, but also makes these networks more difficult to implement with neuromorphic hardware. In this work, we use CSNNs trained in an unsupervised manner with the Spike Timing-Dependent Plasticity (STDP) rule, and we introduce, for the first time, Spiking Separated Spatial and Temporal Convolutions (S3TCs) for the sake of reducing the number of parameters required for video analysis. This unsupervised learning has the advantage of not needing large amounts of labeled data for training. Factorizing a single spatio-temporal spiking convolution into a spatial and a temporal spiking convolution decreases the number of parameters of the network. We test our network with the KTH, Weizmann, and IXMAS datasets, and we show that S3TCs successfully extract spatio-temporal information from videos, while increasing the output spiking activity, and outperforming spiking 3D convolutions.

arxiv情報

著者 Mireille El-Assal,Pierre Tirilly,Ioan Marius Bilasco
発行日 2023-09-22 10:05:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NE パーマリンク