Leveraging Prototype Patient Representations with Feature-Missing-Aware Calibration to Mitigate EHR Data Sparsity

要約

電子医療記録 (EHR) データは、まばらな特徴を示すことが多く、予測モデリングに課題をもたらします。
行列補完アプローチなどの現在の直接補完アプローチは、生の欠損データを完成させるために類似の行または列を参照することに依存しており、補完値と実際の値を区別しません。
その結果、モデルには、予測目的に関して無関係または欺瞞的な情報が誤って組み込まれる可能性があり、それによって下流のパフォーマンスの有効性が損なわれる可能性があります。
一部の方法では、直接代入後に EHR 埋め込みを再調整または強化しようとしますが、多くの場合、誤って代入された特徴を優先します。
この誤った優先順位付けにより、モデルにバイアスや不正確さが生じる可能性があります。
これらの問題に取り組むために、私たちの研究は間接代入に頼っており、類似した患者からのプロトタイプ表現を活用してより高密度の埋め込みを取得しています。
同様の患者を測定する場合、欠落している特徴は通常、存在するものと同じように扱われるという制限を認識して、私たちのアプローチは特徴信頼度学習器モジュールを設計します。
このモジュールは欠落している機能のステータスに敏感であり、モデルが各機能の信頼性をより適切に判断できるようになります。
さらに、特徴の信頼性を考慮した新しい患者類似性メトリクスを提案し、評価が単に潜在的に不正確な代入値に基づいていないことを保証します。
その結果、私たちの研究では、特徴の欠落を認識したキャリブレーションプロセスを使用して、高密度のプロトタイプの患者表現をキャプチャします。
包括的な実験により、設計されたモデルが確立された EHR に焦点を当てたモデルを上回り、MIMIC-III および MIMIC-IV データセットの院内死亡率予測タスクにおいて統計的に有意な改善が見られることが実証されました。
再現性を保証するために、コードは \url{https://anonymous.4open.science/r/SparseEHR} で公開されています。

要約(オリジナル)

Electronic Health Record (EHR) data frequently exhibits sparse characteristics, posing challenges for predictive modeling. Current direct imputation such as matrix imputation approaches hinge on referencing analogous rows or columns to complete raw missing data and do not differentiate between imputed and actual values. As a result, models may inadvertently incorporate irrelevant or deceptive information with respect to the prediction objective, thereby compromising the efficacy of downstream performance. While some methods strive to recalibrate or augment EHR embeddings after direct imputation, they often mistakenly prioritize imputed features. This misprioritization can introduce biases or inaccuracies into the model. To tackle these issues, our work resorts to indirect imputation, where we leverage prototype representations from similar patients to obtain a denser embedding. Recognizing the limitation that missing features are typically treated the same as present ones when measuring similar patients, our approach designs a feature confidence learner module. This module is sensitive to the missing feature status, enabling the model to better judge the reliability of each feature. Moreover, we propose a novel patient similarity metric that takes feature confidence into account, ensuring that evaluations are not based merely on potentially inaccurate imputed values. Consequently, our work captures dense prototype patient representations with feature-missing-aware calibration process. Comprehensive experiments demonstrate that designed model surpasses established EHR-focused models with a statistically significant improvement on MIMIC-III and MIMIC-IV datasets in-hospital mortality outcome prediction task. The code is publicly available at \url{https://anonymous.4open.science/r/SparseEHR} to assure the reproducibility.

arxiv情報

著者 Yinghao Zhu,Zixiang Wang,Long He,Shiyun Xie,Zixi Chen,Jingkun An,Liantao Ma,Chengwei Pan
発行日 2023-09-08 07:01:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク