現在の人工知能 (AI) 時代では、高品質の AI モデルをトレーニングする際にデータセットの規模と品質が重要な役割を果たします。
考えられる解決策は、プライベート データセットと同様の分布を持つ合成データセットをリリースすることです。
それにもかかわらず、一部のシナリオでは、AI モデルのトレーニングに必要な属性がさまざまな関係者に分散されており、プライバシー規制のため、関係者は合成データ構築用のローカル データを共有できません。
PETS 2024 では、最近、垂直分割された静的データを公開するための初の垂直フェデレーション学習ベースの敵対的生成ネットワーク (VFLGAN) を導入しました。
ただし、VFLGAN は、時間次元と属性次元の両方を表す時系列データを効果的に処理できません。
この記事では、属性弁別器と垂直連合学習のアイデアを組み合わせて、垂直分割されたシナリオで合成時系列データを生成する VFLGAN-TS を提案しました。
VFLGAN-TS のパフォーマンスは、一元化された方法でトレーニングされ、VFLGAN-TS の上限を表す同等のパフォーマンスに近いです。
プライバシーをさらに保護するために、VFLGAN-TS が $(\epsilon,\delta)$-差分プライバシーを満たすようにガウス メカニズムを適用します。
さらに、VFLGAN-TS と合成データセットのフレームワークを通じて潜在的なプライバシー侵害を評価するための強化されたプライバシー監査スキームを開発します。
In the current artificial intelligence (AI) era, the scale and quality of the dataset play a crucial role in training a high-quality AI model. However, often original data cannot be shared due to privacy concerns and regulations. A potential solution is to release a synthetic dataset with a similar distribution to the private dataset. Nevertheless, in some scenarios, the attributes required to train an AI model are distributed among different parties, and the parties cannot share the local data for synthetic data construction due to privacy regulations. In PETS 2024, we recently introduced the first Vertical Federated Learning-based Generative Adversarial Network (VFLGAN) for publishing vertically partitioned static data. However, VFLGAN cannot effectively handle time-series data, presenting both temporal and attribute dimensions. In this article, we proposed VFLGAN-TS, which combines the ideas of attribute discriminator and vertical federated learning to generate synthetic time-series data in the vertically partitioned scenario. The performance of VFLGAN-TS is close to that of its counterpart, which is trained in a centralized manner and represents the upper limit for VFLGAN-TS. To further protect privacy, we apply a Gaussian mechanism to make VFLGAN-TS satisfy an $(\epsilon,\delta)$-differential privacy. Besides, we develop an enhanced privacy auditing scheme to evaluate the potential privacy breach through the framework of VFLGAN-TS and synthetic datasets.
著者 | Xun Yuan,Zilong Zhao,Prosanta Gope,Biplab Sikdar |
発行日 | 2024-09-05 15:17:26+00:00 |
arxivサイト | arxiv_id(pdf) |
