A Counterfactual Fair Model for Longitudinal Electronic Health Records via Deconfounder


臨床データ モデリング、特に電子医療記録 (EHR) における公平性の問題は、EHR の複雑な潜在構造と潜在的な選択バイアスのため、最も重要です。
この課題に取り組むために、私たちは、長期的な電子医療記録 (EHR) モデリングにおいて公平性と正確性の両方を達成することを目的とした、Fair Longitudinal Medical Deconffounder (FLMD) と呼ばれる新しいモデルを提案します。
FLMD は、脱交絡理論からインスピレーションを得て、2 段階のトレーニング プロセスを採用しています。
第 1 段階では、FLMD は各遭遇の観察されていない交絡因子を捕捉します。これは、患者の遺伝子型や生活習慣など、観察された EHR を超えた基礎的な医学的要因を効果的に表します。
第 2 段階では、FLMD は学習した潜在表現を他の関連する特徴と組み合わせて予測を行います。
FLMD は、反事実的公平性などの適切な公平性基準を組み込むことで、健康状態の格差を最小限に抑えながら、高い予測精度を維持することを保証します。
FLMD の有効性を実証するために、2 つの現実世界の EHR データセットに対して包括的な実験を実施しました。
公平性と精度の観点からのベースライン手法と FLMD バリアントの比較とは別に、さまざまな設定にわたる FLMD の優位性を示し、その機能についての貴重な洞察を提供するために、乱れた/不均衡なデータセットおよび合成データセットに対するすべてのモデルのパフォーマンスを評価しました。


The fairness issue of clinical data modeling, especially on Electronic Health Records (EHRs), is of utmost importance due to EHR’s complex latent structure and potential selection bias. It is frequently necessary to mitigate health disparity while keeping the model’s overall accuracy in practice. However, traditional methods often encounter the trade-off between accuracy and fairness, as they fail to capture the underlying factors beyond observed data. To tackle this challenge, we propose a novel model called Fair Longitudinal Medical Deconfounder (FLMD) that aims to achieve both fairness and accuracy in longitudinal Electronic Health Records (EHR) modeling. Drawing inspiration from the deconfounder theory, FLMD employs a two-stage training process. In the first stage, FLMD captures unobserved confounders for each encounter, which effectively represents underlying medical factors beyond observed EHR, such as patient genotypes and lifestyle habits. This unobserved confounder is crucial for addressing the accuracy/fairness dilemma. In the second stage, FLMD combines the learned latent representation with other relevant features to make predictions. By incorporating appropriate fairness criteria, such as counterfactual fairness, FLMD ensures that it maintains high prediction accuracy while simultaneously minimizing health disparities. We conducted comprehensive experiments on two real-world EHR datasets to demonstrate the effectiveness of FLMD. Apart from the comparison of baseline methods and FLMD variants in terms of fairness and accuracy, we assessed the performance of all models on disturbed/imbalanced and synthetic datasets to showcase the superiority of FLMD across different settings and provide valuable insights into its capabilities.


著者 Zheng Liu,Xiaohan Li,Philip Yu
発行日 2023-10-02 17:46:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG パーマリンク