Controllable Synthetic Clinical Note Generation with Privacy Guarantees

要約

機械学習の分野では、ドメイン固有の注釈付きデータは、効果的なモデルをトレーニングするための貴重なリソースです。
ただし、医療分野では、このデータには個人健康情報 (PHI) が含まれることが多く、プライバシーに関する重大な懸念が生じます。
PHI を取り巻く厳しい規制により、医療データセットの利用と共有が制限されており、高度な機械学習モデルの開発を目指す研究者や実務者にとっては大きな課題となっています。
この論文では、PHI を含むデータセットを「クローン」する新しい方法を紹介します。
私たちのアプローチでは、患者のプライバシーを損なうことなく、クローン化されたデータセットが元のデータの重要な特性と有用性を確実に保持します。
差分プライバシー技術と新しい微調整タスクを活用することで、私たちの方法は、モデルのトレーニングに必要な統計的特性を維持しながら、個人を特定できる情報が含まれないデータセットを生成します。
クローンデータセットでトレーニングされた機械学習モデルのパフォーマンスを評価するためにユーティリティテストを実施します。
この結果は、クローン データセットがプライバシー基準を遵守しているだけでなく、従来の匿名化されたデータセットでトレーニングされたデータセットと比較してモデルのパフォーマンスが向上していることを示しています。
この研究は、機械学習における機密医療データの倫理的かつ効果的な利用のための実行可能なソリューションを提供し、医学研究の進歩と堅牢な予測モデルの開発を促進します。

要約(オリジナル)

In the field of machine learning, domain-specific annotated data is an invaluable resource for training effective models. However, in the medical domain, this data often includes Personal Health Information (PHI), raising significant privacy concerns. The stringent regulations surrounding PHI limit the availability and sharing of medical datasets, which poses a substantial challenge for researchers and practitioners aiming to develop advanced machine learning models. In this paper, we introduce a novel method to ‘clone’ datasets containing PHI. Our approach ensures that the cloned datasets retain the essential characteristics and utility of the original data without compromising patient privacy. By leveraging differential-privacy techniques and a novel fine-tuning task, our method produces datasets that are free from identifiable information while preserving the statistical properties necessary for model training. We conduct utility testing to evaluate the performance of machine learning models trained on the cloned datasets. The results demonstrate that our cloned datasets not only uphold privacy standards but also enhance model performance compared to those trained on traditional anonymized datasets. This work offers a viable solution for the ethical and effective utilization of sensitive medical data in machine learning, facilitating progress in medical research and the development of robust predictive models.

arxiv情報

著者 Tal Baumel,Andre Manoel,Daniel Jones,Shize Su,Huseyin Inan,Aaron,Bornstein,Robert Sim
発行日 2024-09-12 07:38:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク