MCRAGE: Synthetic Healthcare Data for Fairness

要約

ヘルスケアの分野では、電子医療記録 (EHR) は、診断、治療、ヘルスケア リソースの管理のための機械学習モデルを開発するための重要なトレーニング データとして機能します。
ただし、医療データセットは、人種/民族、性別、年齢などの機密属性の点で不均衡になることがよくあります。
クラス不均衡な EHR データセットでトレーニングされた機械学習モデルは、多数派クラスの個人と比較して、少数派クラスの個人への導入ではパフォーマンスが大幅に低下し、少数派グループの医療成果が不公平になる可能性があります。
この課題に対処するために、私たちは、深層生成モデルによって生成されたサンプルを使用して不均衡なデータセットを増強する新しいアプローチである、生成モデリングによる拡張によるマイノリティ クラス リバランス (MCRAGE) を提案します。
MCRAGE プロセスには、過小評価されたクラスから高品質の合成 EHR サンプルを生成できる条件付きノイズ除去拡散確率モデル (CDDPM) のトレーニングが含まれます。
この合成データを使用して既存の不均衡なデータセットを強化し、その結果、すべてのクラスにわたってよりバランスのとれた分布が得られ、偏りの少ない下流モデルをトレーニングするために使用できます。
これらの下流モデルの精度、F1 スコア、AUROC を使用して、MCRAGE と代替アプローチのパフォーマンスを測定します。
DDPM の最近の収束結果の観点から、この方法の理論的正当性を示します。

要約(オリジナル)

In the field of healthcare, electronic health records (EHR) serve as crucial training data for developing machine learning models for diagnosis, treatment, and the management of healthcare resources. However, medical datasets are often imbalanced in terms of sensitive attributes such as race/ethnicity, gender, and age. Machine learning models trained on class-imbalanced EHR datasets perform significantly worse in deployment for individuals of the minority classes compared to those from majority classes, which may lead to inequitable healthcare outcomes for minority groups. To address this challenge, we propose Minority Class Rebalancing through Augmentation by Generative modeling (MCRAGE), a novel approach to augment imbalanced datasets using samples generated by a deep generative model. The MCRAGE process involves training a Conditional Denoising Diffusion Probabilistic Model (CDDPM) capable of generating high-quality synthetic EHR samples from underrepresented classes. We use this synthetic data to augment the existing imbalanced dataset, resulting in a more balanced distribution across all classes, which can be used to train less biased downstream models. We measure the performance of MCRAGE versus alternative approaches using Accuracy, F1 score and AUROC of these downstream models. We provide theoretical justification for our method in terms of recent convergence results for DDPMs.

arxiv情報

著者 Keira Behal,Jiayi Chen,Caleb Fikes,Sophia Xiao
発行日 2024-03-20 16:32:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク