An Indefensible Attack: Label-Only Model Inversion via Conditional Diffusion Model

要約

モデル反転攻撃 (MIA) は、ターゲット モデルのトレーニング セットからプライベート データを回復することを目的としており、深層学習モデルのプライバシーに対する脅威となります。
MIA は主に、攻撃者がターゲット モデルの構造とパラメーターに完全にアクセスできるホワイト ボックス シナリオに焦点を当てています。
しかし、実際のアプリケーションはブラックボックスであり、攻撃者がモデル関連のパラメーターを取得するのは容易ではなく、さまざまなモデルは予測されたラベルのみを出力します。
既存のブラックボックス MIA は主に最適化戦略の設計に焦点を当てており、生成モデルはホワイトボックス MIA で使用されている GAN からのみ移行されています。
私たちの研究は、私たちの知る限り、ラベルのみのブラックボックス シナリオにおける実行可能な攻撃モデルに関する先駆的な研究です。
この論文では、条件付き拡散モデルを使用して、ターゲット モデルがラベルを出力する限り、追加の最適化を行わずにターゲットの正確なサンプルを復元する新しい MIA 方法を開発します。
攻撃を実行するために 2 つの主要な手法が導入されています。
まず、ターゲット モデル タスクに関連する補助データセットを選択します。ターゲット モデルによって予測されたラベルは、トレーニング プロセスをガイドするための条件として使用されます。
次に、ターゲット ラベルとランダムな標準正規分布ノイズがトレーニングされた条件付き拡散モデルに入力され、事前定義されたガイダンス強度でターゲット サンプルが生成されます。
次に、最も堅牢で代表的なサンプルをフィルターで除外します。
さらに、MIA の評価指標の 1 つとして学習知覚画像パッチ類似性 (LPIPS) を使用し、攻撃の精度、現実性、類似性の観点から体系的な定量的および定性的評価を行うことを初めて提案します。
実験結果は、この方法が最適化なしでターゲットと同様の正確なデータを生成でき、ラベルのみのシナリオで以前のアプローチのジェネレーターよりも優れたパフォーマンスを発揮することを示しています。

要約(オリジナル)

Model inversion attacks (MIAs) are aimed at recovering private data from a target model’s training set, which poses a threat to the privacy of deep learning models. MIAs primarily focus on the white-box scenario where the attacker has full access to the structure and parameters of the target model. However, practical applications are black-box, it is not easy for adversaries to obtain model-related parameters, and various models only output predicted labels. Existing black-box MIAs primarily focused on designing the optimization strategy, and the generative model is only migrated from the GAN used in white-box MIA. Our research is the pioneering study of feasible attack models in label-only black-box scenarios, to the best of our knowledge. In this paper, we develop a novel method of MIA using the conditional diffusion model to recover the precise sample of the target without any extra optimization, as long as the target model outputs the label. Two primary techniques are introduced to execute the attack. Firstly, select an auxiliary dataset that is relevant to the target model task, and the labels predicted by the target model are used as conditions to guide the training process. Secondly, target labels and random standard normally distributed noise are input into the trained conditional diffusion model, generating target samples with pre-defined guidance strength. We then filter out the most robust and representative samples. Furthermore, we propose for the first time to use Learned Perceptual Image Patch Similarity (LPIPS) as one of the evaluation metrics for MIA, with systematic quantitative and qualitative evaluation in terms of attack accuracy, realism, and similarity. Experimental results show that this method can generate similar and accurate data to the target without optimization and outperforms generators of previous approaches in the label-only scenario.

arxiv情報

著者 Rongke Liu
発行日 2023-07-17 12:14:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク