要約
医療向けの機械学習における最近の研究では、患者のプライバシーとアルゴリズムの公平性に関する懸念が生じています。
たとえば、これまでの研究では、患者の自己申告による人種は、人種情報が明示的に含まれていない医療データから予測できることが示されています。
しかし、データ識別の範囲は不明であり、そのような情報による結果の影響を最小限に抑えるモデルを開発する方法がありません。
ここで私たちは、時系列の電子医療記録データが患者の静的情報を予測する能力を体系的に調査しました。
私たちは、生の時系列データだけでなく、機械学習モデルから学習した表現も、生物学的性別で 0.851、二値化で 0.869 もの受信機動作特性曲線の下の面積を持つさまざまな静的情報を予測するようにトレーニングできることを発見しました。
年齢と自己申告人種の場合は0.810。
このような高い予測パフォーマンスは、幅広い併存疾患要因に拡張でき、異なるコホート、異なるモデル アーキテクチャとデータベースを使用して、異なるタスク用にモデルがトレーニングされた場合でも維持されます。
これらの調査結果がもたらすプライバシーと公平性への懸念を考慮して、私たちは、構造化された潜在空間を学習して時系列データから患者に敏感な属性を解きほぐす、変分オートエンコーダーベースのアプローチを開発します。
私たちの研究では、時系列の電子医療記録から患者の静的情報をエンコードする機械学習モデルの能力を徹底的に調査し、下流のタスクで患者に機密な属性情報を保護するための一般的なアプローチを導入しています。
要約(オリジナル)
Recent work in machine learning for healthcare has raised concerns about patient privacy and algorithmic fairness. For example, previous work has shown that patient self-reported race can be predicted from medical data that does not explicitly contain racial information. However, the extent of data identification is unknown, and we lack ways to develop models whose outcomes are minimally affected by such information. Here we systematically investigated the ability of time-series electronic health record data to predict patient static information. We found that not only the raw time-series data, but also learned representations from machine learning models, can be trained to predict a variety of static information with area under the receiver operating characteristic curve as high as 0.851 for biological sex, 0.869 for binarized age and 0.810 for self-reported race. Such high predictive performance can be extended to a wide range of comorbidity factors and exists even when the model was trained for different tasks, using different cohorts, using different model architectures and databases. Given the privacy and fairness concerns these findings pose, we develop a variational autoencoder-based approach that learns a structured latent space to disentangle patient-sensitive attributes from time-series data. Our work thoroughly investigates the ability of machine learning models to encode patient static information from time-series electronic health records and introduces a general approach to protect patient-sensitive attribute information for downstream tasks.
arxiv情報
著者 | Wei Liao,Joel Voldman |
発行日 | 2023-09-20 14:54:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google