The Devil is in the Prompts: De-Identification Traces Enhance Memorization Risks in Synthetic Chest X-Ray Generation

要約

生成モデル、特にテキストからイメージ(T2I)拡散モデルは、医療画像分析において重要な役割を果たします。
ただし、これらのモデルはデータの記憶をトレーニングする傾向があり、患者のプライバシーに重大なリスクをもたらします。
合成胸部X線生成は、このタスクの主要なデータリポジトリとして機能するMIMIC-CXRデータセットを備えた医療画像分析における最も一般的なアプリケーションの1つです。
この研究では、データの記憶のトレーニングに最も貢献するMimic-CXRのプロンプトとテキストトークンを特定する最初の体系的な試みを提示します。
私たちの分析では、2つの予期しない発見が明らかになりました。(1)脱同意手順の痕跡を含むプロンプト(保護された健康情報を隠すために導入されたマーカー)が最も記憶されており、(2)すべてのトークンの中で、識別マーカーは暗記に最も貢献します。
これは、標準的な匿名化プラクティスとMIMIC-CXRを使用したT2I合成に関するより広範な問題を強調しています。
悪化させるために、既存の推論時間記憶緩和戦略は効果がなく、記憶されたテキストトークンへのモデルの依存を十分に減らすことができません。
この面では、さまざまな利害関係者がプライバシーを強化し、医療イメージングにおける生成モデルの信頼性を向上させるための実用的な戦略を提案します。
最後に、我々の結果は、MIMIC-CXRデータセットを使用して、合成胸部X線生成のための記憶緩和技術の開発とベンチマークに関する将来の作業の基盤を提供します。
匿名化されたコードは、https://anonymous.4open.science/r/diffusion_memorization-8011/で入手できます。

要約(オリジナル)

Generative models, particularly text-to-image (T2I) diffusion models, play a crucial role in medical image analysis. However, these models are prone to training data memorization, posing significant risks to patient privacy. Synthetic chest X-ray generation is one of the most common applications in medical image analysis with the MIMIC-CXR dataset serving as the primary data repository for this task. This study presents the first systematic attempt to identify prompts and text tokens in MIMIC-CXR that contribute the most to training data memorization. Our analysis reveals two unexpected findings: (1) prompts containing traces of de-identification procedures (markers introduced to hide Protected Health Information) are the most memorized, and (2) among all tokens, de-identification markers contribute the most towards memorization. This highlights a broader issue with the standard anonymization practices and T2I synthesis with MIMIC-CXR. To exacerbate, existing inference-time memorization mitigation strategies are ineffective and fail to sufficiently reduce the model’s reliance on memorized text tokens. On this front, we propose actionable strategies for different stakeholders to enhance privacy and improve the reliability of generative models in medical imaging. Finally, our results provide a foundation for future work on developing and benchmarking memorization mitigation techniques for synthetic chest X-ray generation using the MIMIC-CXR dataset. The anonymized code is available at https://anonymous.4open.science/r/diffusion_memorization-8011/

arxiv情報

著者 Raman Dutt
発行日 2025-02-14 17:24:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク