Investigating Data Memorization in 3D Latent Diffusion Models for Medical Image Synthesis

要約

生成的潜在拡散モデルは、データ生成における最先端技術として確立されています。
有望なアプリケーションの 1 つは、患者のプライバシーを損なうことなく、オープンなデータ共有のための現実的な合成医用画像データを生成することです。
その約束にもかかわらず、機密性の高い患者トレーニング データを記憶し、トレーニング データ サンプルに高い類似性を示すサンプルを合成するこのようなモデルの能力は、比較的解明されていません。
ここでは、フォトンカウンティング冠状動脈コンピュータ断層撮影血管造影および膝磁気共鳴画像データセットに対する 3D 潜在拡散モデルの記憶能力を評価します。
トレーニング サンプルの潜在的な暗記を検出するために、対照学習に基づく自己教師ありモデルを利用します。
私たちの結果は、そのような潜在拡散モデルが実際にトレーニングデータを記憶しており、記憶を軽減する戦略を考案することが緊急に必要であることを示唆しています。

要約(オリジナル)

Generative latent diffusion models have been established as state-of-the-art in data generation. One promising application is generation of realistic synthetic medical imaging data for open data sharing without compromising patient privacy. Despite the promise, the capacity of such models to memorize sensitive patient training data and synthesize samples showing high resemblance to training data samples is relatively unexplored. Here, we assess the memorization capacity of 3D latent diffusion models on photon-counting coronary computed tomography angiography and knee magnetic resonance imaging datasets. To detect potential memorization of training samples, we utilize self-supervised models based on contrastive learning. Our results suggest that such latent diffusion models indeed memorize training data, and there is a dire need for devising strategies to mitigate memorization.

arxiv情報

著者 Salman Ul Hassan Dar,Arman Ghanaat,Jannik Kahmann,Isabelle Ayx,Theano Papavassiliou,Stefan O. Schoenberg,Sandy Engelhardt
発行日 2023-07-03 16:39:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク