Do Backdoors Assist Membership Inference Attacks?

要約

攻撃者が機械学習モデルに毒サンプルを提供すると、サンプルがモデルのトレーニングに含まれているかどうかを推測するメンバーシップ推論攻撃などのプライバシー漏洩が、サンプルを外れ値に移動することによって有効になります。
ただし、ポイズン サンプルによって推論精度が低下するため、攻撃を検出できます。
この論文では、\textit{バックドア支援メンバーシップ推論攻撃} について説明します。これは、トリガーされたサンプルに対して敵が期待する出力を返す、バックドアに基づく新しいメンバーシップ推論攻撃です。
学術的なベンチマーク データセットを使用した実験を通じて、3 つの重要な洞察が得られました。
最初に、バックドア支援メンバーシップ推論攻撃が成功しないことを示します。
次に、失敗した結果の理由を理解するために損失分布を分析したところ、バックドアはトレーニング サンプルと非トレーニング サンプルの損失分布を分離できないことがわかりました。
つまり、バックドアはクリーンなサンプルの配布に影響を与えることはできません。
第三に、毒とトリガーされたサンプルが異なる分布のニューロンを活性化することも示しています。
具体的には、バックドアは、汚染されたサンプルとは対照的に、クリーンなサンプルをインライアにします。
その結果、バックドアはメンバーシップの推論を支援できないことが確認されました。

要約(オリジナル)

When an adversary provides poison samples to a machine learning model, privacy leakage, such as membership inference attacks that infer whether a sample was included in the training of the model, becomes effective by moving the sample to an outlier. However, the attacks can be detected because inference accuracy deteriorates due to poison samples. In this paper, we discuss a \textit{backdoor-assisted membership inference attack}, a novel membership inference attack based on backdoors that return the adversary’s expected output for a triggered sample. We found three crucial insights through experiments with an academic benchmark dataset. We first demonstrate that the backdoor-assisted membership inference attack is unsuccessful. Second, when we analyzed loss distributions to understand the reason for the unsuccessful results, we found that backdoors cannot separate loss distributions of training and non-training samples. In other words, backdoors cannot affect the distribution of clean samples. Third, we also show that poison and triggered samples activate neurons of different distributions. Specifically, backdoors make any clean sample an inlier, contrary to poisoning samples. As a result, we confirm that backdoors cannot assist membership inference.

arxiv情報

著者 Yumeki Goto,Nami Ashizawa,Toshiki Shibahara,Naoto Yanai
発行日 2023-03-22 14:19:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク