Defending Against Backdoor Attacks by Layer-wise Feature Analysis

要約

通常、ディープ ニューラル ネットワーク (DNN) のトレーニングには、大量のトレーニング データと計算リソースが必要です。
これを行う余裕がないユーザーは、トレーニングをサード パーティに外部委託するか、公開されている事前トレーニング済みのモデルを利用することを好む場合があります。
残念ながら、そうすることで、DNN に対する新しいトレーニング時間攻撃 (つまり、バックドア攻撃) が容易になります。
この攻撃は、敵対者が指定したトリガー パターンを含む入力サンプルの誤分類を誘発することを目的としています。
このホワイト ペーパーでは、最初にターゲット クラスの毒サンプルと良性サンプルのレイヤーごとの特徴分析を行います。
無害なサンプルと汚染されたサンプルの機能の違いは、重要なレイヤーで最大になる傾向があることがわかりました。これは、既存の防御で通常使用されるレイヤー、つまり完全に接続されたレイヤーの前のレイヤーであるとは限りません。
また、良性のサンプルの動作に基づいて、この重要なレイヤーを見つける方法も示します。
次に、重要なレイヤーで疑わしいサンプルと無害なサンプルの機能の違いを分析することにより、汚染されたサンプルをフィルタリングするためのシンプルで効果的な方法を提案します。
2 つのベンチマーク データセットで大規模な実験を行い、防御の有効性を確認します。

要約(オリジナル)

Training deep neural networks (DNNs) usually requires massive training data and computational resources. Users who cannot afford this may prefer to outsource training to a third party or resort to publicly available pre-trained models. Unfortunately, doing so facilitates a new training-time attack (i.e., backdoor attack) against DNNs. This attack aims to induce misclassification of input samples containing adversary-specified trigger patterns. In this paper, we first conduct a layer-wise feature analysis of poisoned and benign samples from the target class. We find out that the feature difference between benign and poisoned samples tends to be maximum at a critical layer, which is not always the one typically used in existing defenses, namely the layer before fully-connected layers. We also demonstrate how to locate this critical layer based on the behaviors of benign samples. We then propose a simple yet effective method to filter poisoned samples by analyzing the feature differences between suspicious and benign samples at the critical layer. We conduct extensive experiments on two benchmark datasets, which confirm the effectiveness of our defense.

arxiv情報

著者 Najeeb Moharram Jebreel,Josep Domingo-Ferrer,Yiming Li
発行日 2023-02-24 17:16:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク