A Differentially Private Kaplan-Meier Estimator for Privacy-Preserving Survival Analysis

要約

この論文では、個人のプライバシーを保護しながら正確な生存確率推定を達成する、カプラン マイヤー推定に対する差分プライベート アプローチを紹介します。
カプラン マイヤー推定量は、経時的な生存関数を推定する生存分析で広く使用されていますが、臨床記録などの機密データセットに適用すると、個人情報が漏洩する危険があります。
これに対処するために、時間インデックス付きラプラス ノイズ、動的クリッピング、および平滑化を適用して、カプラン マイヤー推定量の累積構造を維持しながらプライバシーを保護する生存曲線を生成する新しいアルゴリズムを導入します。
このアルゴリズムは、時間の経過とともにノイズをスケーリングすることで、危険にさらされている人が少なくなるにつれて感度が低下することを考慮し、動的クリッピングと平滑化によって極端な値を防ぎ、変動を減らし、生存曲線の自然な形状を維持します。
NCCTG 肺がんデータセットで評価された私たちの結果は、提案された方法が二乗平均平方根誤差 (RMSE) を効果的に低下させ、プライバシー予算 ($\epsilon$) 全体で精度を向上させることを示しています。
$\epsilon = 10$ では、アルゴリズムは 0.04 という低い RMSE を達成し、非プライベート推定値にほぼ近似します。
さらに、メンバーシップ推論攻撃では、$\epsilon$ 値が高くなると ($\epsilon \geq 6$ など)、特にしきい値が高くなると、影響力のあるポイントが大幅に減少し、推論攻撃に対する感受性が低下することが明らかになります。
これらの発見は、私たちのアプローチがプライバシーと実用性のバランスをとり、プライバシーを保護した生存分析を前進させることを裏付けています。

要約(オリジナル)

This paper presents a differentially private approach to Kaplan-Meier estimation that achieves accurate survival probability estimates while safeguarding individual privacy. The Kaplan-Meier estimator is widely used in survival analysis to estimate survival functions over time, yet applying it to sensitive datasets, such as clinical records, risks revealing private information. To address this, we introduce a novel algorithm that applies time-indexed Laplace noise, dynamic clipping, and smoothing to produce a privacy-preserving survival curve while maintaining the cumulative structure of the Kaplan-Meier estimator. By scaling noise over time, the algorithm accounts for decreasing sensitivity as fewer individuals remain at risk, while dynamic clipping and smoothing prevent extreme values and reduce fluctuations, preserving the natural shape of the survival curve. Our results, evaluated on the NCCTG lung cancer dataset, show that the proposed method effectively lowers root mean squared error (RMSE) and enhances accuracy across privacy budgets ($\epsilon$). At $\epsilon = 10$, the algorithm achieves an RMSE as low as 0.04, closely approximating non-private estimates. Additionally, membership inference attacks reveal that higher $\epsilon$ values (e.g., $\epsilon \geq 6$) significantly reduce influential points, particularly at higher thresholds, lowering susceptibility to inference attacks. These findings confirm that our approach balances privacy and utility, advancing privacy-preserving survival analysis.

arxiv情報

著者 Narasimha Raghavan Veeraragavan,Sai Praneeth Karimireddy,Jan Franz Nygård
発行日 2024-12-06 16:29:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク