Language Model Training Paradigms for Clinical Feature Embeddings

要約

データが乏しい研究分野では、表現学習が重要な役割を果たします。
この研究は、心拍数や血圧などの臨床特徴の普遍的な埋め込みを導出することで、臨床時系列の表現学習を強化することを目的としています。
私たちは、言語モデルの自己教師ありトレーニング パラダイムを使用して、高品質の臨床特徴の埋め込みを学習し、既存のタイムステップおよび患者レベルの表現学習よりも細かい粒度を実現します。
私たちは、学習された埋め込みを教師なし次元削減技術によって視覚化し、以前の臨床知識との高度な一貫性を観察します。
また、MIMIC-III ベンチマークでモデルのパフォーマンスを評価し、臨床特徴埋め込みの使用の有効性を実証します。
複製用にコードをオンラインで公開します。

要約(オリジナル)

In research areas with scarce data, representation learning plays a significant role. This work aims to enhance representation learning for clinical time series by deriving universal embeddings for clinical features, such as heart rate and blood pressure. We use self-supervised training paradigms for language models to learn high-quality clinical feature embeddings, achieving a finer granularity than existing time-step and patient-level representation learning. We visualize the learnt embeddings via unsupervised dimension reduction techniques and observe a high degree of consistency with prior clinical knowledge. We also evaluate the model performance on the MIMIC-III benchmark and demonstrate the effectiveness of using clinical feature embeddings. We publish our code online for replication.

arxiv情報

著者 Yurong Hu,Manuel Burger,Gunnar Rätsch,Rita Kuznetsova
発行日 2024-02-06 16:33:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク