Can Synthetic Data be Fair and Private? A Comparative Study of Synthetic Data Generation and Fairness Algorithms

要約

学習分析(LA)における機械学習の利用の増加により、アルゴリズムの公平性とプライバシーに関する重大な懸念が提起されている。合成データは、プライバシーを強化し、LAモデルの公平性を向上させるという2つの目的を持つツールとして登場した。しかし、先行研究は、公平性とプライバシーの間に逆相関があることを示唆しており、両方を最適化することは困難である。本研究では、どのような合成データ生成ツールがプライバシーと公平性のバランスを最も良く取れるか、また、一般的に実データセットに適用される前処理の公平性アルゴリズムが合成データ上で有効かどうかを調査する。その結果、DEbiasing CAusal Fairness (DECAF)アルゴリズムがプライバシーと公平性の最適なバランスを達成することが明らかになった。しかし、DECAFはその予測精度に反映されるように、実用性において問題を抱えている。注目すべきは、合成データに前処理の公平性アルゴリズムを適用することで、実データに適用した場合よりも公平性が向上することがわかった。これらの結果は、合成データ生成と公平性の前処理を組み合わせることで、より公平なLAモデルを作成するための有望なアプローチを提供することを示唆している。

要約(オリジナル)

The increasing use of machine learning in learning analytics (LA) has raised significant concerns around algorithmic fairness and privacy. Synthetic data has emerged as a dual-purpose tool, enhancing privacy and improving fairness in LA models. However, prior research suggests an inverse relationship between fairness and privacy, making it challenging to optimize both. This study investigates which synthetic data generators can best balance privacy and fairness, and whether pre-processing fairness algorithms, typically applied to real datasets, are effective on synthetic data. Our results highlight that the DEbiasing CAusal Fairness (DECAF) algorithm achieves the best balance between privacy and fairness. However, DECAF suffers in utility, as reflected in its predictive accuracy. Notably, we found that applying pre-processing fairness algorithms to synthetic data improves fairness even more than when applied to real data. These findings suggest that combining synthetic data generation with fairness pre-processing offers a promising approach to creating fairer LA models.

arxiv情報

著者 Qinyi Liu,Oscar Deho,Farhad Vadiee,Mohammad Khalil,Srecko Joksimovic,George Siemens
発行日 2025-01-03 12:35:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク