要約
大量のデータと注釈を取得することは、高性能の深層学習モデルを開発するのに効果的であることが知られていますが、医療分野で行うのは難しく、費用がかかります。
生成モデルを使用して合成トレーニング データを追加すると、データ不足の課題に効果的に対処するための低コストの方法が提供され、データの不均衡や患者のプライバシーの問題にも対処できます。
この研究では、医用画像解析のモデル開発ワークフローにシームレスに適合する包括的なフレームワークを提案します。
さまざまなサイズのデータセットを使用して、(i) データ拡張方法としての生成モデルの利点を実証します。
(ii) 敵対的手法がデータ置換を通じて患者のプライバシーをどのように保護できるか。
(iii) 実際のホールドアウト データでモデルをテストすることによる、これらのユースケースの新しいパフォーマンス メトリクス。
合成データと実際のデータの両方を使用したトレーニングは、実際のデータのみを使用したトレーニングよりも優れたパフォーマンスを示し、合成データのみを使用してトレーニングされたモデルは、実際のデータのみを使用したモデルに近づくことを示します。
コードは https://github.com/Global-Health-Labs/US-DCGAN で入手できます。
要約(オリジナル)
Acquiring large quantities of data and annotations is known to be effective for developing high-performing deep learning models, but is difficult and expensive to do in the healthcare context. Adding synthetic training data using generative models offers a low-cost method to deal effectively with the data scarcity challenge, and can also address data imbalance and patient privacy issues. In this study, we propose a comprehensive framework that fits seamlessly into model development workflows for medical image analysis. We demonstrate, with datasets of varying size, (i) the benefits of generative models as a data augmentation method; (ii) how adversarial methods can protect patient privacy via data substitution; (iii) novel performance metrics for these use cases by testing models on real holdout data. We show that training with both synthetic and real data outperforms training with real data alone, and that models trained solely with synthetic data approach their real-only counterparts. Code is available at https://github.com/Global-Health-Labs/US-DCGAN.
arxiv情報
著者 | Menghan Yu,Sourabh Kulhare,Courosh Mehanian,Charles B Delahunt,Daniel E Shea,Zohreh Laverriere,Ishan Shah,Matthew P Horning |
発行日 | 2023-10-05 15:42:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google