Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks

要約

生成人工知能は合成データの生成を変革し、医療などの分野で特に重要なデータ不足やプライバシーなどの課題に対する革新的なソリューションを提供します。
ただし、この合成データを効果的に使用して高性能モデルをトレーニングすることは依然として大きな課題です。
このペーパーでは、下流の分類器をトレーニングするための合成データの生成と使用を最適化するように設計されたパイプラインであるナレッジ リサイクル (KR) を導入することで、この問題に対処します。
このパイプラインの中心となるのは Generative Knowledge Distillation (GKD) です。これは、合成データセットの再生成とソフト ラベリング メカニズムを通じて、分類子に提供される情報の品質と有用性を大幅に向上させる提案手法です。
KR パイプラインは、網膜画像から臓器スキャンに至るまで、6 つの非常に異質な医療画像データセットに焦点を当てて、さまざまなデータセットでテストされています。
その結果、実際のデータでトレーニングされたモデルと合成データでトレーニングされたモデル間のパフォーマンスの差が大幅に減少し、場合によっては合成データに基づくモデルが実際のデータでトレーニングされたモデルを上回るパフォーマンスを示すことがわかりました。
さらに、結果として得られるモデルは、メンバーシップ推論攻撃に対してほぼ完全な耐性を示し、従来の技術でトレーニングされたモデルに欠けているプラ​​イバシー特性を明らかにしています。

要約(オリジナル)

Generative artificial intelligence has transformed the generation of synthetic data, providing innovative solutions to challenges like data scarcity and privacy, which are particularly critical in fields such as medicine. However, the effective use of this synthetic data to train high-performance models remains a significant challenge. This paper addresses this issue by introducing Knowledge Recycling (KR), a pipeline designed to optimise the generation and use of synthetic data for training downstream classifiers. At the heart of this pipeline is Generative Knowledge Distillation (GKD), the proposed technique that significantly improves the quality and usefulness of the information provided to classifiers through a synthetic dataset regeneration and soft labelling mechanism. The KR pipeline has been tested on a variety of datasets, with a focus on six highly heterogeneous medical image datasets, ranging from retinal images to organ scans. The results show a significant reduction in the performance gap between models trained on real and synthetic data, with models based on synthetic data outperforming those trained on real data in some cases. Furthermore, the resulting models show almost complete immunity to Membership Inference Attacks, manifesting privacy properties missing in models trained with conventional techniques.

arxiv情報

著者 Eugenio Lomurno,Matteo Matteucci
発行日 2024-07-30 13:03:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク