Privacy-Preserving Statistical Data Generation: Application to Sepsis Detection

要約

生物医学分野は、患者情報の機密性を考慮すると、人工知能 (AI) の規制強化とデータ保護法の影響を最も受けている分野の 1 つです。
しかし、合成データ生成手法の台頭により、データ駆動型テクノロジーに有望な機会がもたらされています。
この研究では、分類問題に適用できる合成データ生成のための統計的アプローチを提案します。
私たちは、実世界のコンテキスト内でカーネル密度推定器と K 最近傍サンプリング (KDE-KNN) によって生成された合成データの有用性とプライバシーへの影響を評価し、特に敗血症検出におけるアプリケーションに焦点を当てます。
敗血症は急速に進行し、生命を脅かす可能性があるため、臨床現場では敗血症の検出が重要な課題となっています。
さらに、現在の合成データ生成方法と比較した KDE-KNN の利点を強調します。
さらに、私たちの研究では、モデルのトレーニング手順に合成データを組み込んだ場合の効果も調べています。
この調査は、生物医学分野における規制上の制約を緩和する際の合成データ生成技術の有効性についての貴重な洞察を提供します。

要約(オリジナル)

The biomedical field is among the sectors most impacted by the increasing regulation of Artificial Intelligence (AI) and data protection legislation, given the sensitivity of patient information. However, the rise of synthetic data generation methods offers a promising opportunity for data-driven technologies. In this study, we propose a statistical approach for synthetic data generation applicable in classification problems. We assess the utility and privacy implications of synthetic data generated by Kernel Density Estimator and K-Nearest Neighbors sampling (KDE-KNN) within a real-world context, specifically focusing on its application in sepsis detection. The detection of sepsis is a critical challenge in clinical practice due to its rapid progression and potentially life-threatening consequences. Moreover, we emphasize the benefits of KDE-KNN compared to current synthetic data generation methodologies. Additionally, our study examines the effects of incorporating synthetic data into model training procedures. This investigation provides valuable insights into the effectiveness of synthetic data generation techniques in mitigating regulatory constraints within the biomedical field.

arxiv情報

著者 Eric Macias-Fassio,Aythami Morales,Cristina Pruenza,Julian Fierrez
発行日 2024-04-25 14:26:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク