Spiking-PhysFormer: Camera-Based Remote Photoplethysmography with Parallel Spike-driven Transformer

要約

人工ニューラル ネットワーク (ANN) は、カメラベースの遠隔光電脈波計 (rPPG) が顔のビデオから心臓の活動や生理学的信号 (脈波、心拍数、呼吸数など) をより正確に測定するのに役立ちます。
ただし、既存の ANN ベースの方法のほとんどは大量のコンピューティング リソースを必要とするため、モバイル デバイスでの効果的な展開には課題が生じます。
一方、スパイキング ニューラル ネットワーク (SNN) は、バイナリおよびイベント駆動型のアーキテクチャにより、エネルギー効率の高い深層学習の計り知れない可能性を秘めています。
私たちの知る限り、私たちは最初に SNN を rPPG の領域に導入し、消費電力の削減を目的としたハイブリッド ニューラル ネットワーク (HNN) モデルである Spiking-PhysFormer を提案しました。
具体的には、提案された Spiking-PhyFormer は、ANN ベースのパッチ埋め込みブロック、SNN ベースの変換ブロック、および ANN ベースの予測ヘッドで構成されます。
まず、ローカルおよびグローバルの時空間特徴を集約する能力を維持しながら変圧器ブロックを簡素化するために、連続するサブブロックを置き換える並列スパイク変圧器ブロックを設計します。
さらに、モデルのパフォーマンスを損なうことなく値パラメーターを省略する、簡略化されたスパイク自己注意メカニズムを提案します。
4 つのデータセット (PURE、UBFC-rPPG、UBFC-Phys、MMPD) で行われた実験では、提案されたモデルが PhysFormer と比較して消費電力を 12.4% 削減できることが実証されました。
さらに、変圧器ブロックの消費電力は 12.2 分の 1 に削減され、同時に PhysFormer やその他の ANN ベースのモデルとして適切なパフォーマンスを維持します。

要約(オリジナル)

Artificial neural networks (ANNs) can help camera-based remote photoplethysmography (rPPG) in measuring cardiac activity and physiological signals from facial videos, such as pulse wave, heart rate and respiration rate with better accuracy. However, most existing ANN-based methods require substantial computing resources, which poses challenges for effective deployment on mobile devices. Spiking neural networks (SNNs), on the other hand, hold immense potential for energy-efficient deep learning owing to their binary and event-driven architecture. To the best of our knowledge, we are the first to introduce SNNs into the realm of rPPG, proposing a hybrid neural network (HNN) model, the Spiking-PhysFormer, aimed at reducing power consumption. Specifically, the proposed Spiking-PhyFormer consists of an ANN-based patch embedding block, SNN-based transformer blocks, and an ANN-based predictor head. First, to simplify the transformer block while preserving its capacity to aggregate local and global spatio-temporal features, we design a parallel spike transformer block to replace sequential sub-blocks. Additionally, we propose a simplified spiking self-attention mechanism that omits the value parameter without compromising the model’s performance. Experiments conducted on four datasets-PURE, UBFC-rPPG, UBFC-Phys, and MMPD demonstrate that the proposed model achieves a 12.4\% reduction in power consumption compared to PhysFormer. Additionally, the power consumption of the transformer block is reduced by a factor of 12.2, while maintaining decent performance as PhysFormer and other ANN-based models.

arxiv情報

著者 Mingxaun Liu,Jiankai Tang,Haoxiang Li,Jiahao Qi,Siwei Li,Kegang Wang,Yuntao Wang,Hong Chen
発行日 2024-02-07 12:38:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク