Mitigating Backdoors within Deep Neural Networks in Data-limited Configuration

要約

ディープ ニューラル ネットワーク (DNN) の容量が増加するにつれて、大量のデータの必要性が大幅に増加しています。
一般的な方法は、トレーニング プロセスをアウトソーシングするか、インターネット経由でさらに多くのデータを収集することですが、これにはバックドア DNN のリスクが伴います。
バックドア DNN は、クリーンなデータでは通常の動作を示しますが、テスト時にサンプルにトリガーが挿入されると悪意のある動作をします。
このような場合、ディフェンダーは複数の困難に直面します。
まず、利用可能なクリーンなデータセットは、バックドア DNN の微調整と回復には十分ではない可能性があります。
第 2 に、現実世界の多くのアプリケーションでは、トリガーに関する情報がなければトリガーを回復することは不可能です。
この論文では、中毒ニューロンのいくつかの特徴を定式化します。
このバックドアの不審性スコアは、活性化値、重み、および同じ層内の他のニューロンとの関係に従って、ネットワーク ニューロンをランク付けできます。
私たちの実験によると、提案された方法は、モデルのパフォーマンスを大幅に低下させることなく、小さなクリーンなデータセット、つまり CIFAR-10 データセットの 10 個のクリーンなサンプルで攻撃が成功する可能性を 50% 以上減少させることが示されました。
さらに、提案された方法はベースラインの 3 倍の速度で実行されます。

要約(オリジナル)

As the capacity of deep neural networks (DNNs) increases, their need for huge amounts of data significantly grows. A common practice is to outsource the training process or collect more data over the Internet, which introduces the risks of a backdoored DNN. A backdoored DNN shows normal behavior on clean data while behaving maliciously once a trigger is injected into a sample at the test time. In such cases, the defender faces multiple difficulties. First, the available clean dataset may not be sufficient for fine-tuning and recovering the backdoored DNN. Second, it is impossible to recover the trigger in many real-world applications without information about it. In this paper, we formulate some characteristics of poisoned neurons. This backdoor suspiciousness score can rank network neurons according to their activation values, weights, and their relationship with other neurons in the same layer. Our experiments indicate the proposed method decreases the chance of attacks being successful by more than 50% with a tiny clean dataset, i.e., ten clean samples for the CIFAR-10 dataset, without significantly deteriorating the model’s performance. Moreover, the proposed method runs three times as fast as baselines.

arxiv情報

著者 Soroush Hashemifar,Saeed Parsa,Morteza Zakeri-Nasrabadi
発行日 2023-11-13 15:54:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG, cs.NE パーマリンク