Exploiting Machine Unlearning for Backdoor Attacks in Deep Learning System

要約

近年、ディープラーニングの研究と応用の急速な発展により、人工知能のセキュリティ問題がますます顕著になっています。
バックドア攻撃は、深層学習モデルの脆弱性を標的とした攻撃であり、攻撃者が埋め込んだトリガーによって隠されたバックドアが起動され、特定の入力に対して意図された出力と一致しない可能性のある悪意のある予測が出力されます。
この研究では、機械のアンラーニングに基づいた新しいブラックボックス バックドア攻撃を提案します。
攻撃者はまず、毒と緩和データを含む慎重に設計されたサンプルを使用してトレーニング セットを拡張し、「無害な」モデルをトレーニングします。
次に、攻撃者は緩和サンプルに対する学習解除リクエストを投稿して、モデルに対する関連データの影響を除去し、隠されたバックドアを徐々にアクティブにします。
バックドアは反復的なアンラーニング プロセス中に埋め込まれるため、バックドアの検出または軽減のための既存の防御方法の計算オーバーヘッドが大幅に増加します。
この新たなセキュリティ脅威に対処するために、このような悪意のある学習解除リクエストを検出または軽減するための 2 つの方法を提案します。
正確な非学習と近似的な非学習 (つまり SISA) 設定の両方で実験を実施します。
実験結果は次のことを示しています: 1) 私たちの攻撃アプローチはモデルにバックドアをうまく​​埋め込むことができ、シャーディングにより攻撃の難易度が高まります。
2) 当社の検出アルゴリズムは緩和サンプルの特定に効果的ですが、シャーディングにより検出アルゴリズムの有効性が低下します。

要約(オリジナル)

In recent years, the security issues of artificial intelligence have become increasingly prominent due to the rapid development of deep learning research and applications. Backdoor attack is an attack targeting the vulnerability of deep learning models, where hidden backdoors are activated by triggers embedded by the attacker, thereby outputting malicious predictions that may not align with the intended output for a given input. In this work, we propose a novel black-box backdoor attack based on machine unlearning. The attacker first augments the training set with carefully designed samples, including poison and mitigation data, to train a `benign’ model. Then, the attacker posts unlearning requests for the mitigation samples to remove the impact of relevant data on the model, gradually activating the hidden backdoor. Since backdoors are implanted during the iterative unlearning process, it significantly increases the computational overhead of existing defense methods for backdoor detection or mitigation. To address this new security threat, we proposes two methods for detecting or mitigating such malicious unlearning requests. We conduct the experiment in both exact unlearning and approximate unlearning (i.e., SISA) settings. Experimental results indicate that: 1) our attack approach can successfully implant backdoor into the model, and sharding increases the difficult of attack; 2) our detection algorithms are effective in identifying the mitigation samples, while sharding reduces the effectiveness of our detection algorithms.

arxiv情報

著者 Peixin Zhang,Jun Sun,Mingtian Tan,Xinyu Wang
発行日 2023-12-13 15:00:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク