How Good Are Synthetic Medical Images? An Empirical Study with Lung Ultrasound


生成モデルを使用して合成トレーニング データを追加すると、データ不足の課題に効果的に対処するための低コストの方法が提供され、データの不均衡や患者のプライバシーの問題にも対処できます。
さまざまなサイズのデータ​​セットを使用して、(i) データ拡張方法としての生成モデルの利点を実証します。
(ii) 敵対的手法がデータ置換を通じて患者のプライバシーをどのように保護できるか。
(iii) 実際のホールドアウト データでモデルをテストすることによる、これらのユースケースの新しいパフォーマンス メトリクス。
コードは で入手できます。


Acquiring large quantities of data and annotations is known to be effective for developing high-performing deep learning models, but is difficult and expensive to do in the healthcare context. Adding synthetic training data using generative models offers a low-cost method to deal effectively with the data scarcity challenge, and can also address data imbalance and patient privacy issues. In this study, we propose a comprehensive framework that fits seamlessly into model development workflows for medical image analysis. We demonstrate, with datasets of varying size, (i) the benefits of generative models as a data augmentation method; (ii) how adversarial methods can protect patient privacy via data substitution; (iii) novel performance metrics for these use cases by testing models on real holdout data. We show that training with both synthetic and real data outperforms training with real data alone, and that models trained solely with synthetic data approach their real-only counterparts. Code is available at


著者 Menghan Yu,Sourabh Kulhare,Courosh Mehanian,Charles B Delahunt,Daniel E Shea,Zohreh Laverriere,Ishan Shah,Matthew P Horning
発行日 2023-10-05 15:42:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, eess.IV パーマリンク