PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

要約

リモートフォトプレチスモグラフィ(RPPG)は、非接触生理的測定を可能にしますが、照明の変化、モーションアーティファクト、および限られた時間モデリングに非常に影響を受けやすいままです。
大規模な言語モデル(LLM)は、長距離依存関係のキャプチャに優れており、潜在的なソリューションを提供しますが、テキスト中心のデザインによるRPPG信号の継続的で騒音に敏感な性質と闘っています。
このギャップを埋めるために、ドメイン固有のRPPGコンポーネントとLLMを相乗する共同最適化フレームワークであるPhysllMを紹介します。
具体的には、テキストプロトタイプガイダンス(TPG)戦略は、血行動態の特徴をLLMで解釈可能なセマンティック空間に投影することにより、クロスモーダルアラインメントを確立し、生理学的シグナルと言語トークンの間の表現ギャップを効果的に埋めるために提案されています。
また、適応時間周波数の特徴の再重み付けを通じて信号の不安定性を解決するために、新しいデュアルドメイン固定(DDS)アルゴリズムが提案されています。
最後に、RPPGタスク固有のキューは、生理学的統計、環境コンテキストの回答、およびタスクの説明を通じて生理学的プライエアを体系的に注入し、クロスモーダル学習を活用して視覚情報とテキスト情報の両方を統合し、可変照明や被験者の動きなどの挑戦的なシナリオへの動的な適応を可能にします。
4つのベンチマークデータセットでの評価Physllmは、最先端の精度と堅牢性を達成し、照明のバリエーションとモーションシナリオ全体で優れた一般化を実証します。

要約(オリジナル)

Remote photoplethysmography (rPPG) enables non-contact physiological measurement but remains highly susceptible to illumination changes, motion artifacts, and limited temporal modeling. Large Language Models (LLMs) excel at capturing long-range dependencies, offering a potential solution but struggle with the continuous, noise-sensitive nature of rPPG signals due to their text-centric design. To bridge this gap, we introduce PhysLLM, a collaborative optimization framework that synergizes LLMs with domain-specific rPPG components. Specifically, the Text Prototype Guidance (TPG) strategy is proposed to establish cross-modal alignment by projecting hemodynamic features into LLM-interpretable semantic space, effectively bridging the representational gap between physiological signals and linguistic tokens. Besides, a novel Dual-Domain Stationary (DDS) Algorithm is proposed for resolving signal instability through adaptive time-frequency domain feature re-weighting. Finally, rPPG task-specific cues systematically inject physiological priors through physiological statistics, environmental contextual answering, and task description, leveraging cross-modal learning to integrate both visual and textual information, enabling dynamic adaptation to challenging scenarios like variable illumination and subject movements. Evaluation on four benchmark datasets, PhysLLM achieves state-of-the-art accuracy and robustness, demonstrating superior generalization across lighting variations and motion scenarios.

arxiv情報

著者 Yiping Xie,Bo Zhao,Mingtong Dai,Jian-Ping Zhou,Yue Sun,Tao Tan,Weicheng Xie,Linlin Shen,Zitong Yu
発行日 2025-05-06 15:18:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク