Sequential Multi-Dimensional Self-Supervised Learning for Clinical Time Series

要約

臨床時系列データの自己教師あり学習 (SSL) は、これらのデータが非常に豊富であり、患者の生理学的状態に関する重要な情報を提供するため、最近の文献で大きな注目を集めています。
しかし、臨床時系列に対する既存の SSL 手法のほとんどは、一連の構造化された特徴 (検査値やバイタルサインなど) や個々の高次元の生理学的信号 (心電図など) などの単峰性の時系列向けに設計されているという点で制限されています。
これらの既存の方法は、構造化された特徴と高次元データがシーケンスの各タイムステップで記録される、マルチモダリティを示す時系列モデルに容易に拡張することはできません。
この研究では、このギャップに対処し、新しい SSL 方式であるシーケンシャル多次元 SSL を提案します。この方式では、両方のスケールで情報をより適切に取得するために、シーケンス全体のレベルとシーケンス内の個々の高次元データ ポイントのレベルの両方で SSL 損失が適用されます。
私たちの戦略は、各レベルで使用される損失関数の特定の形式に依存しません。SimCLR のように対照的な場合もあれば、VICReg のように非対照的な場合もあります。
私たちは 2 つの実際の臨床データセットでメソッドを評価します。この時系列には、(1) 高周波心電図と (2) 検査値とバイタルサインからの構造化データのシーケンスが含まれています。
私たちの実験結果は、私たちの方法で事前トレーニングしてから下流のタスクで微調整することで、両方のデータセットのベースラインよりもパフォーマンスが向上し、いくつかの設定では、さまざまな自己教師あり損失関数全体の改善につながる可能性があることを示しています。

要約(オリジナル)

Self-supervised learning (SSL) for clinical time series data has received significant attention in recent literature, since these data are highly rich and provide important information about a patient’s physiological state. However, most existing SSL methods for clinical time series are limited in that they are designed for unimodal time series, such as a sequence of structured features (e.g., lab values and vitals signs) or an individual high-dimensional physiological signal (e.g., an electrocardiogram). These existing methods cannot be readily extended to model time series that exhibit multimodality, with structured features and high-dimensional data being recorded at each timestep in the sequence. In this work, we address this gap and propose a new SSL method — Sequential Multi-Dimensional SSL — where a SSL loss is applied both at the level of the entire sequence and at the level of the individual high-dimensional data points in the sequence in order to better capture information at both scales. Our strategy is agnostic to the specific form of loss function used at each level — it can be contrastive, as in SimCLR, or non-contrastive, as in VICReg. We evaluate our method on two real-world clinical datasets, where the time series contains sequences of (1) high-frequency electrocardiograms and (2) structured data from lab values and vitals signs. Our experimental results indicate that pre-training with our method and then fine-tuning on downstream tasks improves performance over baselines on both datasets, and in several settings, can lead to improvements across different self-supervised loss functions.

arxiv情報

著者 Aniruddh Raghu,Payal Chandak,Ridwan Alam,John Guttag,Collin M. Stultz
発行日 2023-07-20 14:49:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク