VFLGAN: Vertical Federated Learning-based Generative Adversarial Network for Vertically Partitioned Data Publication


現在の人工知能 (AI) 時代では、高品質の AI モデルをトレーニングする際にデータセットの規模と品質が重要な役割を果たします。
ただし、優れたデータはタダで得られるものではなく、一般データ保護規則 (GDPR) などのプライバシー規制により常にアクセスが困難です。
考えられる解決策は、プライベート データセットと同様の分布を持つ合成データセットをリリースすることです。
それにもかかわらず、一部のシナリオでは、AI モデルのトレーニングに必要な属性が異なる当事者に属しており、プライバシー規制のため、合成データ公開用の生データを共有できないことが判明しています。
PETS 2023 では、Xue ら。
は、垂直分割されたデータ公開のための最初の敵対的生成ネットワーク ベース モデルである VertiGAN を提案しました。
しかし、徹底的に調査した結果、VertiGAN はさまざまな当事者の属性間の相関関係を維持する効果が低いことがわかりました。
この記事では、上記の問題に対処するために、垂直分割されたデータ公開のための垂直フェデレーション学習ベースの敵対的生成ネットワーク (VFLGAN) を提案します。
私たちの実験結果は、VertiGAN と比較して、VFLGAN が合成データの品質を大幅に向上させることを示しています。
MNIST データセットを例にとると、VFLGAN によって生成された合成データセットの品質は、VertiGAN によって生成されたものよりも 3.2 倍優れています。
また、合成データセットに差分プライバシー保証を提供するために、提案された VFLGAN 用のより効率的かつ効果的なガウス メカニズムも設計しました。


In the current artificial intelligence (AI) era, the scale and quality of the dataset play a crucial role in training a high-quality AI model. However, good data is not a free lunch and is always hard to access due to privacy regulations like the General Data Protection Regulation (GDPR). A potential solution is to release a synthetic dataset with a similar distribution to that of the private dataset. Nevertheless, in some scenarios, it has been found that the attributes needed to train an AI model belong to different parties, and they cannot share the raw data for synthetic data publication due to privacy regulations. In PETS 2023, Xue et al. proposed the first generative adversary network-based model, VertiGAN, for vertically partitioned data publication. However, after thoroughly investigating, we found that VertiGAN is less effective in preserving the correlation among the attributes of different parties. This article proposes a Vertical Federated Learning-based Generative Adversarial Network, VFLGAN, for vertically partitioned data publication to address the above issues. Our experimental results show that compared with VertiGAN, VFLGAN significantly improves the quality of synthetic data. Taking the MNIST dataset as an example, the quality of the synthetic dataset generated by VFLGAN is 3.2 times better than that generated by VertiGAN w.r.t. the Fr\’echet Distance. We also designed a more efficient and effective Gaussian mechanism for the proposed VFLGAN to provide the synthetic dataset with a differential privacy guarantee. On the other hand, differential privacy only gives the upper bound of the worst-case privacy guarantee. This article also proposes a practical auditing scheme that applies membership inference attacks to estimate privacy leakage through the synthetic dataset.


著者 Xun Yuan,Yang Yang,Prosanta Gope,Aryan Pasikhani,Biplab Sikdar
発行日 2024-04-15 12:25:41+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.AI, cs.CR, cs.LG