Universal Soldier: Using Universal Adversarial Perturbations for Detecting Backdoor Attacks

要約

深層学習モデルは、数多くの機械学習タスクで優れたパフォーマンスを実現します。
しかし、敵対的な例やポイズニング (バックドア) 攻撃などのセキュリティ関連の問題に悩まされています。
深層学習モデルは、バックドア データを使用したトレーニングや内部ネットワーク パラメーターの変更によって汚染される可能性があります。
次に、バックドア モデルは、クリーンな入力を受信した場合は期待どおりに動作しますが、「トリガー」と呼ばれる事前に設計されたパターンがスタンプされたバックドア入力を受信した場合は誤分類します。
残念ながら、トリガーに関する事前知識がなければ、クリーン モデルとバックドア モデルを区別することは困難です。
この論文では、特殊な種類の敵対的攻撃であるユニバーサル敵対的摂動 (UAP) とバックドア トリガーとの類似点を利用したバックドア検出方法を提案します。
私たちは直感的な現象を観察しています。バックドア モデルから生成された UAP は、クリーンなモデルから生成された UAP よりも、モデルを誤解させるために必要な摂動が少ないということです。
バックドアモデルの UAP は、バックドアトリガーによって構築された、すべてのクラスからターゲットクラスへのショートカットを悪用する傾向があります。
私たちは、UAP を介してバックドア検出 (USB) および潜在的なバックドア トリガーをリバース エンジニアリングするための Universal Soldier と呼ばれる新しい方法を提案します。
いくつかのデータセットでトレーニングされた 345 モデルの実験では、USB が挿入されたバックドアを効果的に検出し、最先端の方法と同等以上の結果が得られることが示されています。

要約(オリジナル)

Deep learning models achieve excellent performance in numerous machine learning tasks. Yet, they suffer from security-related issues such as adversarial examples and poisoning (backdoor) attacks. A deep learning model may be poisoned by training with backdoored data or by modifying inner network parameters. Then, a backdoored model performs as expected when receiving a clean input, but it misclassifies when receiving a backdoored input stamped with a pre-designed pattern called ‘trigger’. Unfortunately, it is difficult to distinguish between clean and backdoored models without prior knowledge of the trigger. This paper proposes a backdoor detection method by utilizing a special type of adversarial attack, universal adversarial perturbation (UAP), and its similarities with a backdoor trigger. We observe an intuitive phenomenon: UAPs generated from backdoored models need fewer perturbations to mislead the model than UAPs from clean models. UAPs of backdoored models tend to exploit the shortcut from all classes to the target class, built by the backdoor trigger. We propose a novel method called Universal Soldier for Backdoor detection (USB) and reverse engineering potential backdoor triggers via UAPs. Experiments on 345 models trained on several datasets show that USB effectively detects the injected backdoor and provides comparable or better results than state-of-the-art methods.

arxiv情報

著者 Xiaoyun Xu,Oguzhan Ersoy,Stjepan Picek
発行日 2023-08-24 13:27:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク