要約
リモートフォトプレチスモグラフィ(RPPG)は、顔の光反射分析を通じて非接触生理的モニタリングを可能にし、深い学習が法的なリソース要求のコストでパフォーマンスの向上をもたらすため、重要な計算ボトルネックに直面します。
このホワイトペーパーでは、ME-RPPGは、モデルのスケーラビリティ、クロスダタセット一般化、およびリアルタイム制約のトリレマを解決する時間空間空間の二重性に基づいて構築されたメモリ効率の高いアルゴリズムです。
移転可能な状態空間を活用して、ME-RPPGは、最小限の計算オーバーヘッドを維持しながら、顔面フレーム間で微妙な定期的な変動を効率的にキャプチャし、拡張ビデオシーケンスでのトレーニングを可能にし、低遅延の推論をサポートします。
5.38(MMPD)、0.70(VitalVideo)、および0.25(純粋)のクロスダタセットMAEを達成すると、ME-RPPGは、21.3%から60.2%の範囲の改善ですべてのベースラインよりも優れています。
当社のソリューションにより、わずか3.6 MBのメモリ使用量と9.46ミリ秒のレイテンシでリアルタイム推論が可能になります。既存の方法を19.5%-49.7%の精度と43.2%のユーザー満足度を実世界の展開に上回ります。
コードとデモは、https://github.com/health-hci-group/me-rppg-demoで再現性のためにリリースされます。
要約(オリジナル)
Remote photoplethysmography (rPPG), enabling non-contact physiological monitoring through facial light reflection analysis, faces critical computational bottlenecks as deep learning introduces performance gains at the cost of prohibitive resource demands. This paper proposes ME-rPPG, a memory-efficient algorithm built on temporal-spatial state space duality, which resolves the trilemma of model scalability, cross-dataset generalization, and real-time constraints. Leveraging a transferable state space, ME-rPPG efficiently captures subtle periodic variations across facial frames while maintaining minimal computational overhead, enabling training on extended video sequences and supporting low-latency inference. Achieving cross-dataset MAEs of 5.38 (MMPD), 0.70 (VitalVideo), and 0.25 (PURE), ME-rPPG outperforms all baselines with improvements ranging from 21.3% to 60.2%. Our solution enables real-time inference with only 3.6 MB memory usage and 9.46 ms latency — surpassing existing methods by 19.5%-49.7% accuracy and 43.2% user satisfaction gains in real-world deployments. The code and demos are released for reproducibility on https://github.com/Health-HCI-Group/ME-rPPG-demo.
arxiv情報
著者 | Kegang Wang,Jiankai Tang,Yuxuan Fan,Jiatong Ji,Yuanchun Shi,Yuntao Wang |
発行日 | 2025-04-02 14:34:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google