Enhancing the Utility of Privacy-Preserving Cancer Classification using Synthetic Data

要約

ディープラーニングは、放射線科医の乳がん検出を支援する上で大きな期待を抱いています。
ただし、最適なモデルのパフォーマンスの達成は、患者のプライバシーの懸念に一般的に関連するデータの可用性と共有の制限によって妨げられます。
従来の深層学習モデルでは機密トレーニング情報が誤って漏洩する可能性があるため、このような懸念はさらに悪化します。
この研究は、プライバシーを保護する深層学習技術、具体的には、(i) 差分プライベート確率的勾配降下法 (DP-SGD) および (ii) 私たちが提案する悪性条件付き生成敵対的手法によって生成された完全合成トレーニング データの有用性を探索および定量化することで、これらの課題に取り組んでいます。
通信網。
私たちは、トランスフォーマーモデルを使用したマンモグラフィー腫瘤の下流悪性分類を通じてこれらの方法を評価します。
私たちの実験結果は、合成データの拡張により、差分プライベート モデルのトレーニングにおけるプライバシーとユーティリティのトレードオフを改善できることを示しています。
さらに、合成データでのモデルの事前トレーニングは顕著なパフォーマンスを実現し、すべてのプライバシー保証にわたって DP-SGD を微調整することでさらに向上させることができます。
乳房画像におけるプライバシー保護ディープラーニングのこの最初の徹底的な調査により、現在および新たな臨床プライバシー要件に対処し、プライベートの高実用性ディープ診断モデルの採用に向けた道を切り開きます。
再現可能なコードベースは https://github.com/RichardObi/mammo_dp で公開されています。

要約(オリジナル)

Deep learning holds immense promise for aiding radiologists in breast cancer detection. However, achieving optimal model performance is hampered by limitations in availability and sharing of data commonly associated to patient privacy concerns. Such concerns are further exacerbated, as traditional deep learning models can inadvertently leak sensitive training information. This work addresses these challenges exploring and quantifying the utility of privacy-preserving deep learning techniques, concretely, (i) differentially private stochastic gradient descent (DP-SGD) and (ii) fully synthetic training data generated by our proposed malignancy-conditioned generative adversarial network. We assess these methods via downstream malignancy classification of mammography masses using a transformer model. Our experimental results depict that synthetic data augmentation can improve privacy-utility tradeoffs in differentially private model training. Further, model pretraining on synthetic data achieves remarkable performance, which can be further increased with DP-SGD fine-tuning across all privacy guarantees. With this first in-depth exploration of privacy-preserving deep learning in breast imaging, we address current and emerging clinical privacy requirements and pave the way towards the adoption of private high-utility deep diagnostic models. Our reproducible codebase is publicly available at https://github.com/RichardObi/mammo_dp.

arxiv情報

著者 Richard Osuala,Daniel M. Lang,Anneliese Riess,Georgios Kaissis,Zuzanna Szafranowska,Grzegorz Skorupko,Oliver Diaz,Julia A. Schnabel,Karim Lekadir
発行日 2024-07-17 15:52:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク