Comparison of machine learning models applied on anonymized data with different techniques

要約

データベースのプライバシーを確保するために、値の汎化階層による擬似識別子の難読化に基づく匿名化技術が広く用いられている。データベースのプライバシーに対する様々な種類の攻撃を防ぐために、古典的なk-匿名性や$ell$-diversityを超えるいくつかの匿名化技術を適用することが必要である。しかし、これらの手法を適用することは、予測や意思決定タスクにおける有用性の低下に直結している。この研究では、分類の目的で現在使用されている4つの古典的な機械学習法を研究し、適用される匿名化技術とそれぞれのパラメータを選択した関数として結果を分析する。これらのモデルの性能は、k-匿名性のためのkの値を変化させたときに研究され、また、よく知られた成人データセットに対して、$ell$-diversity、t-closeness、$delta$-disclosure privacyなどの追加ツールも配置される。

要約(オリジナル)

Anonymization techniques based on obfuscating the quasi-identifiers by means of value generalization hierarchies are widely used to achieve preset levels of privacy. To prevent different types of attacks against database privacy it is necessary to apply several anonymization techniques beyond the classical k-anonymity or $\ell$-diversity. However, the application of these methods is directly connected to a reduction of their utility in prediction and decision making tasks. In this work we study four classical machine learning methods currently used for classification purposes in order to analyze the results as a function of the anonymization techniques applied and the parameters selected for each of them. The performance of these models is studied when varying the value of k for k-anonymity and additional tools such as $\ell$-diversity, t-closeness and $\delta$-disclosure privacy are also deployed on the well-known adult dataset.

arxiv情報

著者 Judith Sáinz-Pardo Díaz,Álvaro López García
発行日 2023-05-12 12:34:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.DB, cs.LG パーマリンク