PhysFormer++: Facial Video-based Physiological Measurement with SlowFast Temporal Difference Transformer

要約

顔の映像から非接触で心臓の活動や生理信号を計測することを目的とした遠隔脳波計(rPPG)は、多くのアプリケーション(遠隔ヘルスケアや感情コンピューティングなど)で大きな可能性を持っている。最近の深層学習アプローチは、限られた時空間受容野を持つ畳み込みニューラルネットワークを用いた微妙なrPPGの手がかりのマイニングに焦点を当てており、rPPGのモデリングのための長距離時空間知覚と相互作用を軽視している。本論文では、rPPG表現強化のために、局所的および全体的な時空間特徴を適応的に集約する、2つのエンドツーエンドビデオ変換器ベースのアーキテクチャ、すなわちPhysFormerとPhysFormer++を提案する。PhysFormer の主要モジュールとして、時間差変換器は、まず、時間差誘導型グローバルアテンションにより準周期的な rPPG 特徴を強化し、次に、干渉に対してローカル時空間表現を洗練させる。また、時間的文脈と周期的rPPGの手がかりをよりよく利用するために、我々はPhysFormerを時間差周期変換器と交差注意変換器を備えた2経路SlowFastベースのPhysFormer++へ拡張する。さらに、ラベル分布学習とカリキュラム学習による周波数領域での動的制約を提案し、PhysFormerとPhysFormer++に精巧なスーパービジョンを提供し、オーバーフィッティングを軽減する。4つのベンチマークデータセットで包括的な実験を行い、データセット内およびデータセット間のテストにおける我々の優れた性能を示す。提案するPhysFormerファミリーは、大規模データセットからの事前学習を必要とする多くの変換器ネットワークとは異なり、rPPGデータセットでゼロから簡単に学習できるため、rPPGコミュニティ向けの新しい変換器ベースラインとして有望である。

要約(オリジナル)

Remote photoplethysmography (rPPG), which aims at measuring heart activities and physiological signals from facial video without any contact, has great potential in many applications (e.g., remote healthcare and affective computing). Recent deep learning approaches focus on mining subtle rPPG clues using convolutional neural networks with limited spatio-temporal receptive fields, which neglect the long-range spatio-temporal perception and interaction for rPPG modeling. In this paper, we propose two end-to-end video transformer based architectures, namely PhysFormer and PhysFormer++, to adaptively aggregate both local and global spatio-temporal features for rPPG representation enhancement. As key modules in PhysFormer, the temporal difference transformers first enhance the quasi-periodic rPPG features with temporal difference guided global attention, and then refine the local spatio-temporal representation against interference. To better exploit the temporal contextual and periodic rPPG clues, we also extend the PhysFormer to the two-pathway SlowFast based PhysFormer++ with temporal difference periodic and cross-attention transformers. Furthermore, we propose the label distribution learning and a curriculum learning inspired dynamic constraint in frequency domain, which provide elaborate supervisions for PhysFormer and PhysFormer++ and alleviate overfitting. Comprehensive experiments are performed on four benchmark datasets to show our superior performance on both intra- and cross-dataset testings. Unlike most transformer networks needed pretraining from large-scale datasets, the proposed PhysFormer family can be easily trained from scratch on rPPG datasets, which makes it promising as a novel transformer baseline for the rPPG community.

arxiv情報

著者 Zitong Yu,Yuming Shen,Jingang Shi,Hengshuang Zhao,Yawen Cui,Jiehua Zhang,Philip Torr,Guoying Zhao
発行日 2023-02-07 15:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク