Multi-Objective Optimization-Based Anonymization of Structured Data for Machine Learning Application

要約

組織は膨大な量のデータを収集していますが、洞察を完全に抽出するために必要な機能が不足していることがよくあります。
その結果、彼らはそれから価値を得るために、アナリストや研究者などの外部の専門家とますますデータを共有しています。
ただし、このプラクティスでは、プライバシーリスクが大幅に発生します。
データ共有におけるプライバシーの懸念に対処するために、さまざまな手法が提案されています。
ただし、これらの方法はしばしばデータユーティリティを分解し、機械学習(ML)モデルのパフォーマンスに影響を与えます。
私たちの研究は、特にカテゴリ変数の処理と、多様なデータセット全体の有効性の評価において、プライバシー保存のための既存の最適化モデルの重要な制限を特定しています。
情報の損失を同時に最小限に抑え、攻撃に対する保護を最大化する新しい多目的最適化モデルを提案します。
このモデルは、多様なデータセットを使用して経験的に検証され、2つの既存のアルゴリズムと比較されます。
情報の損失、リンケージまたは均一性攻撃の対象となる個人の数、および匿名化後のMLパフォーマンスを評価します。
結果は、我々のモデルがより低い情報損失を達成し、攻撃のリスクをより効果的に軽減し、場合によっては代替アルゴリズムと比較してこれらの攻撃の影響を受けやすい個人の数を減らすことを示しています。
さらに、我々のモデルは、他の方法で匿名化された元のデータまたはデータと比較して、同等のMLパフォーマンスを維持しています。
私たちの調査結果は、プライバシー保護とMLモデルのパフォーマンスの大幅な改善を強調しており、データ共有におけるプライバシーとユーティリティのバランスをとるための包括的な拡張可能なフレームワークを提供します。

要約(オリジナル)

Organizations are collecting vast amounts of data, but they often lack the capabilities needed to fully extract insights. As a result, they increasingly share data with external experts, such as analysts or researchers, to gain value from it. However, this practice introduces significant privacy risks. Various techniques have been proposed to address privacy concerns in data sharing. However, these methods often degrade data utility, impacting the performance of machine learning (ML) models. Our research identifies key limitations in existing optimization models for privacy preservation, particularly in handling categorical variables, and evaluating effectiveness across diverse datasets. We propose a novel multi-objective optimization model that simultaneously minimizes information loss and maximizes protection against attacks. This model is empirically validated using diverse datasets and compared with two existing algorithms. We assess information loss, the number of individuals subject to linkage or homogeneity attacks, and ML performance after anonymization. The results indicate that our model achieves lower information loss and more effectively mitigates the risk of attacks, reducing the number of individuals susceptible to these attacks compared to alternative algorithms in some cases. Additionally, our model maintains comparable ML performance relative to the original data or data anonymized by other methods. Our findings highlight significant improvements in privacy protection and ML model performance, offering a comprehensive and extensible framework for balancing privacy and utility in data sharing.

arxiv情報

著者 Yusi Wei,Hande Y. Benson,Joseph K. Agor,Muge Capan
発行日 2025-05-15 16:07:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク