SVFormer: A Direct Training Spiking Transformer for Efficient Video Action Recognition

要約

ビデオアクション認識 (VAR) は、監視、ヘルスケア、産業オートメーションなどのさまざまな分野で重要な役割を果たしており、社会にとって非常に重要です。
そのため、コンピュータ ビジョン分野では長い間研究の対象となってきました。
人工ニューラル ネットワーク (ANN) の普及に伴い、2D-CNN や 3D-CNN を含む畳み込みニューラル ネットワーク (CNN)、およびビジョン トランスフォーマー (ViT) のバリアントが VAR で優れたパフォーマンスを示しています。
ただし、時間的次元によって大量のデータ量と重い情報の冗長性が導入されるため、通常は膨大な計算コストが必要になります。
この課題に対処するために、一部の研究者は、リカレント SNN や ANN 変換 SNN など、脳にインスピレーションを得たスパイキング ニューラル ネットワーク (SNN) に注目し、その固有の時間ダイナミクスとエネルギー効率を活用しています。
しかし、現在の VAR 用 SNN は、重要な入力前処理、複雑なネットワーク構築/トレーニング、同じビデオ クリップの繰り返し処理の必要性などの制限にも直面しており、実際の展開を妨げています。
この研究では、VAR 用に直接トレーニングされた SVFormer (Spiking Video transFormer) を革新的に提案します。
SVFormer は、ローカル特徴抽出、グローバル セルフ アテンション、SNN の固有のダイナミクス、スパース性、スパイク駆動の性質を統合して、時空間特徴を効率的かつ効果的に抽出します。
2 つの RGB データセット (UCF101、NTU-RGBD60) と 1 つのニューロモーフィック データセット (DVS128-Gesture) で SVFormer を評価し、より効率的な方法で主流のモデルと同等のパフォーマンスを実証しました。
特に、SVFormer は、UCF101 上で超低消費電力 (21 mJ/ビデオ) でトップ 1 の精度 84.03% を達成しています。これは、直接トレーニングされたディープ SNN の中で最先端であり、以前のモデルと比べて大きな利点を示しています。

要約(オリジナル)

Video action recognition (VAR) plays crucial roles in various domains such as surveillance, healthcare, and industrial automation, making it highly significant for the society. Consequently, it has long been a research spot in the computer vision field. As artificial neural networks (ANNs) are flourishing, convolution neural networks (CNNs), including 2D-CNNs and 3D-CNNs, as well as variants of the vision transformer (ViT), have shown impressive performance on VAR. However, they usually demand huge computational cost due to the large data volume and heavy information redundancy introduced by the temporal dimension. To address this challenge, some researchers have turned to brain-inspired spiking neural networks (SNNs), such as recurrent SNNs and ANN-converted SNNs, leveraging their inherent temporal dynamics and energy efficiency. Yet, current SNNs for VAR also encounter limitations, such as nontrivial input preprocessing, intricate network construction/training, and the need for repetitive processing of the same video clip, hindering their practical deployment. In this study, we innovatively propose the directly trained SVFormer (Spiking Video transFormer) for VAR. SVFormer integrates local feature extraction, global self-attention, and the intrinsic dynamics, sparsity, and spike-driven nature of SNNs, to efficiently and effectively extract spatio-temporal features. We evaluate SVFormer on two RGB datasets (UCF101, NTU-RGBD60) and one neuromorphic dataset (DVS128-Gesture), demonstrating comparable performance to the mainstream models in a more efficient way. Notably, SVFormer achieves a top-1 accuracy of 84.03% with ultra-low power consumption (21 mJ/video) on UCF101, which is state-of-the-art among directly trained deep SNNs, showcasing significant advantages over prior models.

arxiv情報

著者 Liutao Yu,Liwei Huang,Chenlin Zhou,Han Zhang,Zhengyu Ma,Huihui Zhou,Yonghong Tian
発行日 2024-06-21 10:31:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク