Energy cost and machine learning accuracy impact of k-anonymisation and synthetic data techniques


プライバシーと気候に関する社会的懸念の増大に対処するために、EU は一般データ保護規則 (GDPR) を採択し、グリーン ディールにコミットしました。
最近の研究では、k-匿名性に焦点を当てて、エネルギー消費と機械学習モデルの精度の両方に対するプライバシー強化技術 (PET) の影響を調査し始めました。
PET では合成データの人気が高まっているため、この論文では、a) プライバシー強化技術を関係するデータセットに適用する段階、b) 関係するプライバシー強化データセットでモデルをトレーニングする段階の 2 つのフェーズのエネルギー消費と精度を分析します。
当社では、k 匿名化 (一般化と抑制を使用) と合成データ、および 3 つの機械学習モデルという 2 つのプライバシー強化技術を使用しています。


To address increasing societal concerns regarding privacy and climate, the EU adopted the General Data Protection Regulation (GDPR) and committed to the Green Deal. Considerable research studied the energy efficiency of software and the accuracy of machine learning models trained on anonymised data sets. Recent work began exploring the impact of privacy-enhancing techniques (PET) on both the energy consumption and accuracy of the machine learning models, focusing on k-anonymity. As synthetic data is becoming an increasingly popular PET, this paper analyses the energy consumption and accuracy of two phases: a) applying privacy-enhancing techniques to the concerned data set, b) training the models on the concerned privacy-enhanced data set. We use two privacy-enhancing techniques: k-anonymisation (using generalisation and suppression) and synthetic data, and three machine-learning models. Each model is trained on each privacy-enhanced data set. Our results show that models trained on k-anonymised data consume less energy than models trained on the original data, with a similar performance regarding accuracy. Models trained on synthetic data have a similar energy consumption and a similar to lower accuracy compared to models trained on the original data.


著者 Pepijn de Reus,Ana Oprescu,Koen van Elsen
発行日 2023-10-29 18:19:41+00:00
カテゴリー: cs.AI, cs.LG パーマリンク