要約
スパイキング ニューラル ネットワーク (SNN) とトランスフォーマー アーキテクチャを統合したスパイキング トランスフォーマーは、エネルギー効率と高性能の可能性があるため、大きな注目を集めています。
ただし、この領域の既存のモデルは依然として最適なパフォーマンスに達していません。
パフォーマンスを向上させるために、いくつかの革新を導入します。 i) SNN に合わせた新しいスパイク形式の Q-K アテンション メカニズムを提案します。これは、線形複雑さを持つバイナリ ベクトルを通じてトークンまたはチャネルの次元の重要性を効率的にモデル化します。
ii) 脳と人工ニューラルネットワークの両方のパフォーマンスに大きな利益をもたらす階層構造をスパイキングトランスフォーマーに組み込み、マルチスケールスパイキング表現を取得します。
iii) スパイクトランス専用の変形ショートカットを備えた、多用途で強力なパッチ埋め込みモジュールを設計します。
私たちは共同で、直接トレーニングによる Q-K アテンションに基づく階層型スパイキング トランスフォーマーである QKFormer を開発します。
QKFormer は、さまざまな主流のデータセット上で、既存の最先端の SNN モデルよりも大幅に優れたパフォーマンスを示します。
特に、Spikformer (66.34 M、74.81%) と同等のサイズを持つ QKFormer (64.96 M) は、ImageNet-1k 上で 85.65% という画期的なトップ 1 精度を達成し、Spikformer を 10.84% 大幅に上回ります。
私たちの知る限り、ImageNet-1K で直接トレーニングした SNN の精度が 85% を超えたのはこれが初めてです。
コードとモデルは https://github.com/zhouchenlin2096/QKFormer で公開されています。
要約(オリジナル)
Spiking Transformers, which integrate Spiking Neural Networks (SNNs) with Transformer architectures, have attracted significant attention due to their potential for energy efficiency and high performance. However, existing models in this domain still suffer from suboptimal performance. We introduce several innovations to improve the performance: i) We propose a novel spike-form Q-K attention mechanism, tailored for SNNs, which efficiently models the importance of token or channel dimensions through binary vectors with linear complexity. ii) We incorporate the hierarchical structure, which significantly benefits the performance of both the brain and artificial neural networks, into spiking transformers to obtain multi-scale spiking representation. iii) We design a versatile and powerful patch embedding module with a deformed shortcut specifically for spiking transformers. Together, we develop QKFormer, a hierarchical spiking transformer based on Q-K attention with direct training. QKFormer shows significantly superior performance over existing state-of-the-art SNN models on various mainstream datasets. Notably, with comparable size to Spikformer (66.34 M, 74.81%), QKFormer (64.96 M) achieves a groundbreaking top-1 accuracy of 85.65% on ImageNet-1k, substantially outperforming Spikformer by 10.84%. To our best knowledge, this is the first time that directly training SNNs have exceeded 85% accuracy on ImageNet-1K. The code and models are publicly available at https://github.com/zhouchenlin2096/QKFormer
arxiv情報
著者 | Chenlin Zhou,Han Zhang,Zhaokun Zhou,Liutao Yu,Liwei Huang,Xiaopeng Fan,Li Yuan,Zhengyu Ma,Huihui Zhou,Yonghong Tian |
発行日 | 2024-03-25 08:57:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google