要約
リモートフォトプレチスモグラフィ(RPPG)は、フェイシャルビデオに基づいた生理学的信号を検出するための非接触方法であり、さまざまなアプリケーションで高い可能性を保持しています。
RPPGシグナルの周期性の性質により、変圧器の長距離依存性キャプチャ容量は、そのようなシグナルにとって有利であると想定されていました。
ただし、既存の方法では、従来の畳み込みニューラルネットワークよりもトランスの優れた性能を最終的に実証していません。
これは、シーケンス長の変圧器によって示される二次スケーリングに起因する可能性があり、その結果、粗粒の特徴抽出が生じ、それが堅牢性と一般化に影響します。
それに対処するために、このペーパーでは、周期性によって引き起こされる一時的な注意スパース性に基づいた周期的なまばらな注意メカニズムを提案します。
従来の注意メカニズムの前に、出席前の段階が導入されます。
この段階は、多数の無関係な注意計算を除外するための定期的なパターンを学習し、したがって、細粒の特徴抽出を可能にします。
さらに、騒音干渉の影響を受けやすい細かい特徴の問題に対処するために、RPPGの特徴に対する自己関節を効果的に導くために融合ステムが提案されています。
既存の方法に簡単に統合して、パフォーマンスを向上させることができます。
広範な実験では、提案された方法が、データ準内とクロスダタセットの両方の評価で最先端のパフォーマンスを達成することを示しています。
コードはhttps://github.com/zizheng-guo/rhythmformerで入手できます。
要約(オリジナル)
Remote photoplethysmography (rPPG) is a non-contact method for detecting physiological signals based on facial videos, holding high potential in various applications. Due to the periodicity nature of rPPG signals, the long-range dependency capturing capacity of the transformer was assumed to be advantageous for such signals. However, existing methods have not conclusively demonstrated the superior performance of transformers over traditional convolutional neural networks. This may be attributed to the quadratic scaling exhibited by transformer with sequence length, resulting in coarse-grained feature extraction, which in turn affects robustness and generalization. To address that, this paper proposes a periodic sparse attention mechanism based on temporal attention sparsity induced by periodicity. A pre-attention stage is introduced before the conventional attention mechanism. This stage learns periodic patterns to filter out a large number of irrelevant attention computations, thus enabling fine-grained feature extraction. Moreover, to address the issue of fine-grained features being more susceptible to noise interference, a fusion stem is proposed to effectively guide self-attention towards rPPG features. It can be easily integrated into existing methods to enhance their performance. Extensive experiments show that the proposed method achieves state-of-the-art performance in both intra-dataset and cross-dataset evaluations. The codes are available at https://github.com/zizheng-guo/RhythmFormer.
arxiv情報
著者 | Bochao Zou,Zizheng Guo,Jiansheng Chen,Junbao Zhuo,Weiran Huang,Huimin Ma |
発行日 | 2025-02-20 12:02:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google