要約
この論文では、ブラックボックスシナリオの下でのバックドア攻撃に対するディープニューラルネットワークのデータ効率の高い検出方法を提案します。
提案されたアプローチは、トリガーに対応する特徴が、バックドア ネットワークの出力を決定する際に、他の良性の特徴よりも大きな影響力を持つという直観によって動機付けられています。
バックドア ネットワークの出力を決定する際のトリガーと無害な機能の影響を定量的に測定するために、5 つの指標を導入します。
特定の入力の 5 つのメトリクス値を計算するには、まず入力の部分的な内容をクリーンな検証サンプルに注入することによって、いくつかの合成サンプルを生成します。
次に、対応する合成サンプルの出力ラベルを使用して 5 つのメトリクスが計算されます。
この研究の貢献の 1 つは、小さなクリーンな検証データセットの使用です。
計算された 5 つのメトリクスを使用して、5 つの新規性検出器が検証データセットからトレーニングされます。
メタ ノベルティ検出器は、トレーニングされた 5 つのノベルティ検出器の出力を融合して、メタ信頼スコアを生成します。
オンラインテスト中に、私たちの方法は、メタノベルティ検出器によって出力されたメタ信頼スコアを評価することによって、オンラインサンプルが汚染されているかどうかを判断します。
私たちは、アブレーション研究や既存のアプローチとの比較など、幅広いバックドア攻撃を通じて私たちの方法論の有効性を示します。
提案された 5 つの指標は、きれいなサンプルと汚染されたサンプル間の固有の違いを定量化するため、私たちの方法論は有望です。
さらに、将来の高度な攻撃に対処するために提案される可能性のあるメトリクスを追加することで、検出方法を段階的に改善することができます。
要約(オリジナル)
This paper proposes a data-efficient detection method for deep neural networks against backdoor attacks under a black-box scenario. The proposed approach is motivated by the intuition that features corresponding to triggers have a higher influence in determining the backdoored network output than any other benign features. To quantitatively measure the effects of triggers and benign features on determining the backdoored network output, we introduce five metrics. To calculate the five-metric values for a given input, we first generate several synthetic samples by injecting the input’s partial contents into clean validation samples. Then, the five metrics are computed by using the output labels of the corresponding synthetic samples. One contribution of this work is the use of a tiny clean validation dataset. Having the computed five metrics, five novelty detectors are trained from the validation dataset. A meta novelty detector fuses the output of the five trained novelty detectors to generate a meta confidence score. During online testing, our method determines if online samples are poisoned or not via assessing their meta confidence scores output by the meta novelty detector. We show the efficacy of our methodology through a broad range of backdoor attacks, including ablation studies and comparison to existing approaches. Our methodology is promising since the proposed five metrics quantify the inherent differences between clean and poisoned samples. Additionally, our detection method can be incrementally improved by appending more metrics that may be proposed to address future advanced attacks.
arxiv情報
著者 | Hao Fu,Prashanth Krishnamurthy,Siddharth Garg,Farshad Khorrami |
発行日 | 2023-07-11 16:39:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google