要約
機械学習(ML)モデルに対するプライバシー攻撃は、しばしば学習データ中の特定のデータポイントの存在を推測することに焦点を当てる。しかし、敵が本当に知りたいのは、特定の個人(被験者)のデータが訓練中に含まれていたかどうかである。このようなシナリオでは、敵は実際の記録よりも、特定の被験者の分布にアクセスできる可能性が高くなります。さらに、クロスサイロFederated Learning(FL)のような設定では、被験者のデータは、複数の組織にまたがる複数のデータレコードによって具現化されることがある。既存のプライベートFLに関する文献のほぼ全ては、アイテムレベル(個々のデータレコード)とユーザーレベル(フェデレーションに参加するユーザー)の2つの粒度でプライバシーを研究することに特化しており、どちらもクロスサイロFLのデータ対象には当てはまらない。この洞察は、データレコードのプライバシーからデータ主体のプライバシー(被験者レベルのプライバシーとも呼ばれる)に注意を向ける動機付けとなった。我々は、被験者メンバーシップ推論のための2つの新しいブラックボックス攻撃を提案し、そのうちの1つは、各トレーニングラウンド後のモデルへのアクセスを仮定する。これらの攻撃を用いて、単一当事者モデルおよびFLシナリオの実世界データにおける被験者メンバーシップ推論のリスクを推定する。その結果、正確な訓練記録にアクセスすることなく、一握りの被験者のメンバーシップに関する知識を用いた場合でも、我々の攻撃は非常に強力であることがわかった。クロスシロFL設定における被験者のプライバシーリスクに影響を与える可能性のある様々な要因をより良く理解するために、データの特性、モデルの設計とトレーニング、およびフェデレーション自体を変えながら、数百の合成フェデレーション設定を系統的に生成しました。最後に、この脅威を軽減するための差分プライバシーの有効性を調査する。
要約(オリジナル)
Privacy attacks on Machine Learning (ML) models often focus on inferring the existence of particular data points in the training data. However, what the adversary really wants to know is if a particular individual’s (subject’s) data was included during training. In such scenarios, the adversary is more likely to have access to the distribution of a particular subject than actual records. Furthermore, in settings like cross-silo Federated Learning (FL), a subject’s data can be embodied by multiple data records that are spread across multiple organizations. Nearly all of the existing private FL literature is dedicated to studying privacy at two granularities — item-level (individual data records), and user-level (participating user in the federation), neither of which apply to data subjects in cross-silo FL. This insight motivates us to shift our attention from the privacy of data records to the privacy of data subjects, also known as subject-level privacy. We propose two novel black-box attacks for subject membership inference, of which one assumes access to a model after each training round. Using these attacks, we estimate subject membership inference risk on real-world data for single-party models as well as FL scenarios. We find our attacks to be extremely potent, even without access to exact training records, and using the knowledge of membership for a handful of subjects. To better understand the various factors that may influence subject privacy risk in cross-silo FL settings, we systematically generate several hundred synthetic federation configurations, varying properties of the data, model design and training, and the federation itself. Finally, we investigate the effectiveness of Differential Privacy in mitigating this threat.
arxiv情報
著者 | Anshuman Suri,Pallika Kanani,Virendra J. Marathe,Daniel W. Peterson |
発行日 | 2023-06-02 13:38:47+00:00 |
arxivサイト | arxiv_id(pdf) |