Footprints of Data in a Classifier Model: The Privacy Issues and Their Mitigation through Data Obfuscation

要約

雪崩を打ったような AI の導入と、そのセキュリティとプライバシーに関する懸念は、同じコインの表裏の関係にあります。
GDPR の第 17 条では、消去する権利を求めています。
データの侵害を防ぐには、システムからデータを消去する必要があります。
この側面に関する現在の研究は、機密データの属性を消去することに焦点を当てています。
ただし、データ侵害のいくつかの受動的モードはまだ認識されておらず、是正されていません。
予測モデルへのトレーニング データのフットプリントの埋め込みもそのような側面の 1 つです。
テスト データとトレーニング データのパフォーマンス品質の違いにより、モデルをトレーニングしたデータの受動的識別が発生します。
この研究は、データ フットプリントから生じる脆弱性に対処することに焦点を当てています。
3 つの主要な側面は、i] さまざまな分類子の脆弱性を調査する (脆弱なものと脆弱でないものを分離するため)、ii] 脆弱な分類子の脆弱性を軽減して (データ難読化を通じて) モデルとデータのプライバシーを保護する、および iii)
] データ難読化技術の有用性を研究するために、プライバシーとパフォーマンスのトレードオフを調査しています。
上記の目的を探るために、3 つのデータセットと 8 つの分類子に対して実証的研究が行われます。
初期調査の結果により、分類子の脆弱性が特定され、脆弱な分類子と脆弱でない分類子が分離されます。
データ難読化技術に関する追加の実験により、データとモデルのプライバシーをレンダリングするその有用性と、ほとんどのシナリオでプライバシーとパフォーマンスのトレードオフを明らかにする機能も明らかになりました。
結果は、実務者がさまざまなシナリオやコンテキストで分類器を選択するのに役立ちます。

要約(オリジナル)

The avalanche of AI deployment and its security-privacy concerns are two sides of the same coin. Article 17 of GDPR calls for the Right to Erasure; data has to be obliterated from a system to prevent its compromise. Extant research in this aspect focuses on effacing sensitive data attributes. However, several passive modes of data compromise are yet to be recognized and redressed. The embedding of footprints of training data in a prediction model is one such facet; the difference in performance quality in test and training data causes passive identification of data that have trained the model. This research focuses on addressing the vulnerability arising from the data footprints. The three main aspects are — i] exploring the vulnerabilities of different classifiers (to segregate the vulnerable and the non-vulnerable ones), ii] reducing the vulnerability of vulnerable classifiers (through data obfuscation) to preserve model and data privacy, and iii] exploring the privacy-performance tradeoff to study the usability of the data obfuscation techniques. An empirical study is conducted on three datasets and eight classifiers to explore the above objectives. The results of the initial research identify the vulnerability in classifiers and segregate the vulnerable and non-vulnerable classifiers. The additional experiments on data obfuscation techniques reveal their utility to render data and model privacy and also their capability to chalk out a privacy-performance tradeoff in most scenarios. The results can aid the practitioners with their choice of classifiers in different scenarios and contexts.

arxiv情報

著者 Payel Sadhukhan,Tanujit Chakraborty
発行日 2024-07-02 13:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク