要約
遠隔フォトプレチスモグラフィー (rPPG) ベースの生理学的測定は、新たに出現しているものの重要な視覚タスクであり、その課題は、照明の変化、顔の遮蔽、頭の動きなどのノイズを伴う顔のビデオから、非接触で正確な rPPG 予測を探求することにあります。
既存の主流の CNN ベースのモデルは、心拍によって引き起こされる顔の関心領域 (ROI) の微妙な色の変化を捕捉することで生理学的信号を検出することに努めています。
ただし、そのようなモデルは、神経ユニット内の限られた局所的な空間的または時間的な受容野によって制約されます。
これらとは異なり、このホワイト ペーパーでは、Dual-path TokenLearner (Dual-TL) と呼ばれるネイティブ Transformer ベースのフレームワークが提案されています。このフレームワークは、学習可能なトークンの概念を利用して、ビデオのグローバルな観点から空間的および時間的な情報コンテキストを統合します。
具体的には、提案されたデュアル TL は、空間トークン学習器 (S-TL) を使用して、さまざまな顔 ROI の関連性を探索します。これにより、ノイズの多い ROI の乱れから遠く離れた rPPG 予測が可能になります。
補足的に、Temporal TokenLearner (T-TL) は、心拍の準周期的なパターンを推論するように設計されており、頭の動きなどの一時的な外乱を排除します。
2 つの TokenLearner、S-TL と T-TL はデュアルパス モードで実行されます。
これにより、モデルは最終的な rPPG 信号予測のノイズ外乱を低減できます。
4 つの生理学的測定ベンチマーク データセットに関する広範な実験が行われます。
Dual-TL は、データセット内テストとデータセット間テストの両方で最先端のパフォーマンスを実現し、rPPG 測定の基本的なバックボーンとしての計り知れない可能性を示しています。
ソース コードは \href{https://github.com/VUT-HFUT/Dual-TL}{https://github.com/VUT-HFUT/Dual-TL} で入手できます。
要約(オリジナル)
Remote photoplethysmography (rPPG) based physiological measurement is an emerging yet crucial vision task, whose challenge lies in exploring accurate rPPG prediction from facial videos accompanied by noises of illumination variations, facial occlusions, head movements, \etc, in a non-contact manner. Existing mainstream CNN-based models make efforts to detect physiological signals by capturing subtle color changes in facial regions of interest (ROI) caused by heartbeats. However, such models are constrained by the limited local spatial or temporal receptive fields in the neural units. Unlike them, a native Transformer-based framework called Dual-path TokenLearner (Dual-TL) is proposed in this paper, which utilizes the concept of learnable tokens to integrate both spatial and temporal informative contexts from the global perspective of the video. Specifically, the proposed Dual-TL uses a Spatial TokenLearner (S-TL) to explore associations in different facial ROIs, which promises the rPPG prediction far away from noisy ROI disturbances. Complementarily, a Temporal TokenLearner (T-TL) is designed to infer the quasi-periodic pattern of heartbeats, which eliminates temporal disturbances such as head movements. The two TokenLearners, S-TL and T-TL, are executed in a dual-path mode. This enables the model to reduce noise disturbances for final rPPG signal prediction. Extensive experiments on four physiological measurement benchmark datasets are conducted. The Dual-TL achieves state-of-the-art performances in both intra- and cross-dataset testings, demonstrating its immense potential as a basic backbone for rPPG measurement. The source code is available at \href{https://github.com/VUT-HFUT/Dual-TL}{https://github.com/VUT-HFUT/Dual-TL}
arxiv情報
著者 | Wei Qian,Dan Guo,Kun Li,Xilan Tian,Meng Wang |
発行日 | 2023-08-15 13:45:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google