Marich: A Query-efficient Distributionally Equivalent Model Extraction Attack using Public Data

要約

私たちは、公開されている API を介してのみ攻撃者が機械学習モデルを照会できるブラックボックス モデル盗用攻撃を研究しています。
具体的には、最小限のクエリを使用してターゲット モデルの有益で分布的に同等のレプリカを作成するブラック ボックス モデル抽出攻撃を設計することを目的としています。
まず、分布的に等価な最大情報モデル抽出攻撃を定義します。
次に、両方の攻撃を変分最適化問題に減らします。
攻撃者はこの問題を解決して、エントロピーを最大化し、同時にターゲットと盗まれたモデルの間の不一致を減らす最も有益なクエリを選択します。
これにより、アクティブ サンプリング ベースのクエリ選択アルゴリズムである Marich にたどり着きます。
BERT や ResNet18 など、さまざまなテキストと画像のデータ セット、およびさまざまなモデルで Marich を評価します。
Marich は、真のモデルの精度の $69-96\%$ を達成するモデルを抽出することができ、プライベート トレーニング データセットとは異なる、公開されているクエリ データセットから $1,070 – 6,950$ のサンプルを使用します。
Marich によって抽出されたモデルは、既存のアクティブ サンプリング ベースのアルゴリズムと比較して、ターゲットの分布に $\sim2-4\times$ 近い予測分布を生成します。
抽出されたモデルは、メンバーシップ推論攻撃の下でも $85-95\%$ の精度につながります。
実験結果は、Marich がクエリ効率が高く、タスクの精度が高く、忠実度が高く、有益なモデル抽出を実行できることを検証しています。

要約(オリジナル)

We study black-box model stealing attacks where the attacker can query a machine learning model only through publicly available APIs. Specifically, our aim is to design a black-box model extraction attack that uses minimal number of queries to create an informative and distributionally equivalent replica of the target model. First, we define distributionally equivalent and max-information model extraction attacks. Then, we reduce both the attacks into a variational optimisation problem. The attacker solves this problem to select the most informative queries that simultaneously maximise the entropy and reduce the mismatch between the target and the stolen models. This leads us to an active sampling-based query selection algorithm, Marich. We evaluate Marich on different text and image data sets, and different models, including BERT and ResNet18. Marich is able to extract models that achieve $69-96\%$ of true model’s accuracy and uses $1,070 – 6,950$ samples from the publicly available query datasets, which are different from the private training datasets. Models extracted by Marich yield prediction distributions, which are $\sim2-4\times$ closer to the target’s distribution in comparison to the existing active sampling-based algorithms. The extracted models also lead to $85-95\%$ accuracy under membership inference attacks. Experimental results validate that Marich is query-efficient, and also capable of performing task-accurate, high-fidelity, and informative model extraction.

arxiv情報

著者 Pratik Karmakar,Debabrota Basu
発行日 2023-02-16 18:20:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, stat.ML パーマリンク