Latent Masking for Multimodal Self-supervised Learning in Health Timeseries

要約

生物医学時系列の機械学習に使用できるラベル付きデータが限られているため、この分野の進歩が妨げられています。
自己教師あり学習 (SSL) は、ラベルなしでデータ表現を学習するための有望なアプローチです。
ただし、現在の SSL メソッドは、ネガティブ ペアに対して高価な計算を必要とし、単一のモダリティ向けに設計されているため、汎用性が制限されています。
これらの制限を克服するために、CroSSL (クロスモーダル SSL) を導入します。
CroSSL は、モダリティ固有のエンコーダーから中間埋め込みをマスクすることと、クロスモーダル アグリゲーターを使用して中間埋め込みをグローバル 埋め込みに集約するという 2 つの新しい概念を導入します。
これにより、事前のデータ前処理や時間のかかるネガティブペア サンプリングを行わずに、欠落モダリティの処理とクロスモーダル パターンのエンドツーエンド学習が可能になります。
当社は、医療グレードの生体信号と消費者向け生体信号の両方を含む、さまざまなマルチモーダル時系列ベンチマークで CroSSL を評価します。
私たちの結果は、以前の SSL 技術や最小限のラベル付きデータによる監視付きベンチマークと比較して、優れたパフォーマンスを示しています。
さらに、さまざまなマスキング率と戦略の影響を分析し、欠落モダリティに対する学習された表現の堅牢性を評価します。
全体として、私たちの研究は最先端のパフォーマンスを達成しながら、時間的健康データにおけるクロスモーダル学習のための潜在的な埋め込みをマスキングする利点を強調しています。

要約(オリジナル)

Limited availability of labeled data for machine learning on biomedical time-series hampers progress in the field. Self-supervised learning (SSL) is a promising approach to learning data representations without labels. However, current SSL methods require expensive computations for negative pairs and are designed for single modalities, limiting their versatility. To overcome these limitations, we introduce CroSSL (Cross-modal SSL). CroSSL introduces two novel concepts: masking intermediate embeddings from modality-specific encoders and aggregating them into a global embedding using a cross-modal aggregator. This enables the handling of missing modalities and end-to-end learning of cross-modal patterns without prior data preprocessing or time-consuming negative-pair sampling. We evaluate CroSSL on various multimodal time-series benchmarks, including both medical-grade and consumer biosignals. Our results demonstrate superior performance compared to previous SSL techniques and supervised benchmarks with minimal labeled data. We additionally analyze the impact of different masking ratios and strategies and assess the robustness of the learned representations to missing modalities. Overall, our work achieves state-of-the-art performance while highlighting the benefits of masking latent embeddings for cross-modal learning in temporal health data.

arxiv情報

著者 Shohreh Deldari,Dimitris Spathis,Mohammad Malekzadeh,Fahim Kawsar,Flora Salim,Akhil Mathur
発行日 2023-07-31 17:10:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク