Private, fair and accurate: Training large-scale, privacy-preserving AI models in medical imaging

要約

人工知能 (AI) モデルは、医療分野でますます使用されています。
ただし、医療データは機密性が高いため、その保護を確実にするための特別な予防措置が必要です。
プライバシー保護のゴールド スタンダードは、モデル トレーニングへの差分プライバシー (DP) の導入です。
以前の研究では、DP がモデルの精度と公平性にマイナスの影響を与えることが示されています。これは医学では受け入れられず、プライバシー保護技術の広範な使用に対する主な障壁となっています。
この作業では、胸部 X 線写真診断のための AI モデルのプライバシー保護トレーニングの効果を、プライベートでないトレーニングと比較して、精度と公平性について評価しました。
このために、高品質の臨床胸部レントゲン写真の大規模なデータセット (N = 193,311) を使用しました。
次に、非プライベートの深層畳み込みニューラル ネットワーク (CNN) とプライバシー保護 (DP) モデルを、受信者 – オペレーター – 特性曲線 (AUROC) の下の領域として測定されたプライバシー – ユーティリティのトレードオフ、およびプライバシー – 公平性のトレードオフに関して比較しました。
-offs、ピアソンの r または統計的パリティ差として測定。
非プライベート CNN はすべてのラベルで 0.90 ± 0.04 の平均 AUROC スコアを達成したのに対し、epsilon=7.89 のプライバシー バジェットを持つ DP CNN は 0.87 ± 0.04 の AUROC、つまりわずか 2.6% であることがわかりました。
プライベートトレーニングに比べてパフォーマンスが低下します。
さらに、プライバシー保護トレーニングは、年齢、性別、または併存疾患に対する差別を増幅しないことがわかりました。
私たちの研究は、実際の臨床データセットの挑戦的で現実的な状況下で、診断ディープラーニングモデルのプライバシー保護トレーニングが優れた診断精度と公平性で可能であることを示しています。

要約(オリジナル)

Artificial intelligence (AI) models are increasingly used in the medical domain. However, as medical data is highly sensitive, special precautions to ensure its protection are required. The gold standard for privacy preservation is the introduction of differential privacy (DP) to model training. Prior work indicates that DP has negative implications on model accuracy and fairness, which are unacceptable in medicine and represent a main barrier to the widespread use of privacy-preserving techniques. In this work, we evaluated the effect of privacy-preserving training of AI models for chest radiograph diagnosis regarding accuracy and fairness compared to non-private training. For this, we used a large dataset (N=193,311) of high quality clinical chest radiographs, which were retrospectively collected and manually labeled by experienced radiologists. We then compared non-private deep convolutional neural networks (CNNs) and privacy-preserving (DP) models with respect to privacy-utility trade-offs measured as area under the receiver-operator-characteristic curve (AUROC), and privacy-fairness trade-offs, measured as Pearson’s r or Statistical Parity Difference. We found that the non-private CNNs achieved an average AUROC score of 0.90 +- 0.04 over all labels, whereas the DP CNNs with a privacy budget of epsilon=7.89 resulted in an AUROC of 0.87 +- 0.04, i.e., a mere 2.6% performance decrease compared to non-private training. Furthermore, we found the privacy-preserving training not to amplify discrimination against age, sex or co-morbidity. Our study shows that — under the challenging realistic circumstances of a real-life clinical dataset — the privacy-preserving training of diagnostic deep learning models is possible with excellent diagnostic accuracy and fairness.

arxiv情報

著者 Soroosh Tayebi Arasteh,Alexander Ziller,Christiane Kuhl,Marcus Makowski,Sven Nebelung,Rickmer Braren,Daniel Rueckert,Daniel Truhn,Georgios Kaissis
発行日 2023-03-07 10:00:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG, eess.IV パーマリンク