Towards a Game-theoretic Understanding of Explanation-based Membership Inference Attacks

要約

モデルの説明により、ブラックボックス機械学習 (ML) モデルとその決定の透明性が向上します。
ただし、メンバーシップ推論攻撃 (MIA) などのプライバシーの脅威を実行するために悪用されることもあります。
既存の研究では、敵対者とターゲット ML モデルの間の単一の「仮定」対話シナリオで MIA を分析するだけでした。
したがって、反復的な対話設定で MIA を起動する際の敵対者の能力に影響を与える要因を識別できません。
さらに、これらの作業は、ターゲット モデルの構造に関する敵対者の知識に関する仮定に依存しているため、メンバーと非メンバーを区別するために必要な事前定義されたしきい値の最適性は保証されません。
このペーパーでは、説明ベースのしきい値攻撃の領域を詳しく掘り下げます。この攻撃では、攻撃者は、ターゲットの ML モデルとそれに対応する説明方法で構成されるシステムとの反復的な対話を通じて説明の差異を利用して、MIA 攻撃を実行しようとします。
私たちは、連続時間確率的シグナリング ゲーム フレームワークを採用して、このような相互作用をモデル化します。
私たちのフレームワークでは、敵対者は停止ゲームをプレイし、システムと対話して (敵対者の種類、つまり正直か悪意があるかについて不完全な情報を持っています) と対話して説明の差異情報を取得し、データポイントのメンバーシップを正確に決定するための最適なしきい値を計算します。

まず、MIA を起動するために使用できる、そのような最適なしきい値が存在することを証明するための健全な数学的定式化を提案します。
次に、この動的システムにおいて独自のマルコフ完全平衡 (または定常状態) が存在する条件を特徴付けます。
提案されたゲーム モデルの包括的なシミュレーション セットを使用して、このような繰り返しの対話設定で敵対者が MIA を起動する能力に影響を与える可能性のあるさまざまな要因を評価します。

要約(オリジナル)

Model explanations improve the transparency of black-box machine learning (ML) models and their decisions; however, they can also be exploited to carry out privacy threats such as membership inference attacks (MIA). Existing works have only analyzed MIA in a single ‘what if’ interaction scenario between an adversary and the target ML model; thus, it does not discern the factors impacting the capabilities of an adversary in launching MIA in repeated interaction settings. Additionally, these works rely on assumptions about the adversary’s knowledge of the target model’s structure and, thus, do not guarantee the optimality of the predefined threshold required to distinguish the members from non-members. In this paper, we delve into the domain of explanation-based threshold attacks, where the adversary endeavors to carry out MIA attacks by leveraging the variance of explanations through iterative interactions with the system comprising of the target ML model and its corresponding explanation method. We model such interactions by employing a continuous-time stochastic signaling game framework. In our framework, an adversary plays a stopping game, interacting with the system (having imperfect information about the type of an adversary, i.e., honest or malicious) to obtain explanation variance information and computing an optimal threshold to determine the membership of a datapoint accurately. First, we propose a sound mathematical formulation to prove that such an optimal threshold exists, which can be used to launch MIA. Then, we characterize the conditions under which a unique Markov perfect equilibrium (or steady state) exists in this dynamic system. By means of a comprehensive set of simulations of the proposed game model, we assess different factors that can impact the capability of an adversary to launch MIA in such repeated interaction settings.

arxiv情報

著者 Kavita Kumari,Murtuza Jadliwala,Sumit Kumar Jha,Anindya Maiti
発行日 2024-04-10 16:14:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT パーマリンク