Privacy-preserving datasets by capturing feature distributions with Conditional VAEs

要約

ディープラーニングのアプリケーションを発展させるためには、大規模で注釈の充実したデータセットが不可欠であるが、単独で入手するにはコストがかかったり、不可能であったりすることが多い。医療分野を含む多くの分野で、データ共有に依存するアプローチは、これらの課題に対処するために不可欠となっている。データセットのサイズと多様性を増大させるのに有効である一方で、データ共有には重大なプライバシーの問題がある。k-匿名性のパラダイムに基づく一般的な匿名化手法は、しばしばデータの多様性を保持できず、モデルの頑健性に影響を与える。本研究では、事前に訓練された大規模な視覚基盤モデルから抽出された特徴ベクトルに対して訓練された条件付き変分オートエンコーダ(CVAE)を用いた新しいアプローチを紹介する。基礎モデルは多様な領域にわたる複雑なパターンを効果的に検出し表現するため、CVAEは与えられたデータ分布の埋め込み空間を忠実にキャプチャし、多様でプライバシーを尊重した、潜在的に無限の合成特徴ベクトルの集合を生成(サンプリング)することができる。本手法は、医療と自然画像の両領域において、従来のアプローチを顕著に上回り、サンプルのプライバシーを保持しつつ、データセットの多様性と摂動に対する高い頑健性を示す。これらの結果は、データが乏しくプライバシーに敏感な環境における深層学習アプリケーションに大きな影響を与える生成モデルの可能性を強調しています。ソースコードは https://github.com/francescodisalvo05/cvae-anonymization で入手可能です。

要約(オリジナル)

Large and well-annotated datasets are essential for advancing deep learning applications, however often costly or impossible to obtain by a single entity. In many areas, including the medical domain, approaches relying on data sharing have become critical to address those challenges. While effective in increasing dataset size and diversity, data sharing raises significant privacy concerns. Commonly employed anonymization methods based on the k-anonymity paradigm often fail to preserve data diversity, affecting model robustness. This work introduces a novel approach using Conditional Variational Autoencoders (CVAEs) trained on feature vectors extracted from large pre-trained vision foundation models. Foundation models effectively detect and represent complex patterns across diverse domains, allowing the CVAE to faithfully capture the embedding space of a given data distribution to generate (sample) a diverse, privacy-respecting, and potentially unbounded set of synthetic feature vectors. Our method notably outperforms traditional approaches in both medical and natural image domains, exhibiting greater dataset diversity and higher robustness against perturbations while preserving sample privacy. These results underscore the potential of generative models to significantly impact deep learning applications in data-scarce and privacy-sensitive environments. The source code is available at https://github.com/francescodisalvo05/cvae-anonymization .

arxiv情報

著者 Francesco Di Salvo,David Tafler,Sebastian Doerrich,Christian Ledig
発行日 2024-08-01 15:26:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク