Private, fair and accurate: Training large-scale, privacy-preserving AI models in radiology

要約

医療分野では、人工知能(AI)モデルの活用が進んでいます。しかし、医療データは非常に機密性が高いため、その保護には特別な配慮が必要である。プライバシー保護のためのゴールドスタンダードは、モデル学習に差分プライバシー(DP)を導入することである。しかし、先行研究により、DPはモデルの精度や公平性に悪影響を及ぼすことが示されている。そこで本研究の目的は、胸部X線写真診断のためのAIモデルのプライバシーを保持した学習が、非プライバシー学習と比較して高い精度と公平性で可能であることを実証することである。N=193,311枚の高品質な臨床胸部X線写真をレトロスペクティブに収集し、経験豊富な放射線科医が、心肥大、鬱血、胸水、肺浸潤、無気肺のうち一つ以上の診断を左右(該当箇所)に手動でラベル付けをした。非プライベートAIモデルは,プライバシー-効用トレードオフ(受信者操作特性曲線下面積(AUROC)として測定)およびプライバシー-公平トレードオフ(Pearson-Rまたは統計的平価差として測定)に関して,プライバシー保護(DP)モデルと比較された.非プライベートAIモデルは、すべてのラベルで平均0.90のAUROCスコアを達成したが、プライバシーバジェットε=7.89のDP AIモデルは、AUROC0.87、すなわち非プライベート学習と比較してわずか2.6%の性能低下であった。診断AIモデルのプライバシー保護トレーニングは、モデルの精度に対する小さなペナルティで高い性能を達成することができ、年齢、性別、併存疾患に対する差別を増幅することはない。したがって、我々は、医療用AIモデル開発に最先端のプライバシー保護技術を組み込むことを実務家に推奨する。

要約(オリジナル)

Artificial intelligence (AI) models are increasingly used in the medical domain. However, as medical data is highly sensitive, special precautions to ensure the protection of said data are required. The gold standard for privacy preservation is the introduction of differential privacy (DP) to model training. However, prior work has shown that DP has negative implications on model accuracy and fairness. Therefore, the purpose of this study is to demonstrate that the privacy-preserving training of AI models for chest radiograph diagnosis is possible with high accuracy and fairness compared to non-private training. N=193,311 high quality clinical chest radiographs were retrospectively collected and manually labeled by experienced radiologists, who assigned one or more of the following diagnoses: cardiomegaly, congestion, pleural effusion, pneumonic infiltration and atelectasis, to each side (where applicable). The non-private AI models were compared with privacy-preserving (DP) models with respect to privacy-utility trade-offs (measured as area under the receiver-operator-characteristic curve (AUROC)), and privacy-fairness trade-offs (measured as Pearson-R or Statistical Parity Difference). The non-private AI model achieved an average AUROC score of 0.90 over all labels, whereas the DP AI model with a privacy budget of epsilon=7.89 resulted in an AUROC of 0.87, i.e., a mere 2.6% performance decrease compared to non-private training. The privacy-preserving training of diagnostic AI models can achieve high performance with a small penalty on model accuracy and does not amplify discrimination against age, sex or co-morbidity. We thus encourage practitioners to integrate state-of-the-art privacy-preserving techniques into medical AI model development.

arxiv情報

著者 Soroosh Tayebi Arasteh,Alexander Ziller,Christiane Kuhl,Marcus Makowski,Sven Nebelung,Rickmer Braren,Daniel Rueckert,Daniel Truhn,Georgios Kaissis
発行日 2023-02-03 09:49:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG, eess.IV パーマリンク