Training Robust Deep Physiological Measurement Models with Synthetic Video-based Data


教師あり深層学習技術の最近の進歩により、顔のビデオだけから人間の生理学的バイタルサイン (光電脈波計、心拍数など) を遠隔で測定できる可能性が実証されました。
写真のようにリアルな合成アバターを備えた合成ビデオベースのデータセット (例: SCAMPS~\cite{mcduff2022scamps}) は、高品質の合成データを提供しながら問題を軽減するために導入されています。
ただし、合成データと現実世界のデータの間には大きなギャップが存在し、これがこれらの合成データセットでトレーニングされたニューラル モデルの一般化を妨げています。
私たちは個別の拡張方法と組み合わせた拡張方法を実験し、3 つの公開実世界データセットでフレームワークを評価しました。
結果は、平均 MAE を 6.9 から 2.0 に下げることができたことを示しています。


Recent advances in supervised deep learning techniques have demonstrated the possibility to remotely measure human physiological vital signs (e.g., photoplethysmograph, heart rate) just from facial videos. However, the performance of these methods heavily relies on the availability and diversity of real labeled data. Yet, collecting large-scale real-world data with high-quality labels is typically challenging and resource intensive, which also raises privacy concerns when storing personal bio-metric data. Synthetic video-based datasets (e.g., SCAMPS~\cite{mcduff2022scamps}) with photo-realistic synthesized avatars are introduced to alleviate the issues while providing high-quality synthetic data. However, there exists a significant gap between synthetic and real-world data, which hinders the generalization of neural models trained on these synthetic datasets. In this paper, we proposed several measures to add real-world noise to synthetic physiological signals and corresponding facial videos. We experimented with individual and combined augmentation methods and evaluated our framework on three public real-world datasets. Our results show that we were able to reduce the average MAE from 6.9 to 2.0.


著者 Yuxuan Ou,Yuzhe Zhang,Yuntang Wang,Shwetak Patel,Daniel McDuf,Xin Liu
発行日 2023-11-09 13:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV パーマリンク