Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning

要約

Machine Ulearning(MU)は、トレーニングサンプルとトレーニングされたモデルへの影響を削除するリクエストに続いて、元のMLモデルをゼロから再トレーニングすることなく、機械学習(ML)モデルを更新することを目指しています。
MU自体はプライバシー保護と規制のコンプライアンスを提供するために採用されていますが、モデルの攻撃面を増やすこともできます。
未学習セットのプロパティを推測することを目的としたMUに対する既存のプライバシー推論攻撃は、攻撃者が非学習モデルと元のモデルの両方にアクセスできると仮定し、現実のシナリオへの実現可能性を制限していると仮定する弱い脅威モデルに依存しています。
新しいプライバシー攻撃を提案します。これは、敵が未学習モデルのラベル出力にアクセスできる厳格な脅威モデルに従って、データサンプルが学習されていないかどうかを推測するMU、Apolloに対する事後ラベルのメンバーシップ推論攻撃です。
提案された攻撃は、以前の攻撃と比較してターゲットモデルへのアクセスが少なくなりますが、非学習サンプルのメンバーシップステータスの比較的高い精度を達成できることを実証します。

要約(オリジナル)

Machine Unlearning (MU) aims to update Machine Learning (ML) models following requests to remove training samples and their influences on a trained model efficiently without retraining the original ML model from scratch. While MU itself has been employed to provide privacy protection and regulatory compliance, it can also increase the attack surface of the model. Existing privacy inference attacks towards MU that aim to infer properties of the unlearned set rely on the weaker threat model that assumes the attacker has access to both the unlearned model and the original model, limiting their feasibility toward real-life scenarios. We propose a novel privacy attack, A Posteriori Label-Only Membership Inference Attack towards MU, Apollo, that infers whether a data sample has been unlearned, following a strict threat model where an adversary has access to the label-output of the unlearned model only. We demonstrate that our proposed attack, while requiring less access to the target model compared to previous attacks, can achieve relatively high precision on the membership status of the unlearned samples.

arxiv情報

著者 Liou Tang,James Joshi,Ashish Kundu
発行日 2025-06-11 16:43:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク