Universal Detection of Backdoor Attacks via Density-based Clustering and Centroids Analysis

要約

私たちは、クラスタリングと重心分析 (CCA-UD) に基づいたバックドア攻撃に対する普遍的な防御を提案します。
防御の目的は、トレーニング データセットを検査することで、ディープ ニューラル ネットワーク モデルがバックドア攻撃の対象になっているかどうかを明らかにすることです。
CCA-UD は、まず密度ベースのクラスタリングによってトレーニング セットのサンプルをクラスタリングします。
次に、新しい戦略を適用して、汚染されたクラスターの存在を検出します。
提案された戦略は、分析されたクラスターの代表的な例の特徴が良性サンプルに追加されるときに観察される一般的な誤分類動作に基づいています。
誤分類エラーを誘発する能力は、毒されたサンプルの一般的な特性であるため、提案された防御は攻撃に依存しません。
これは、一部のタイプのバックドア攻撃のみを防御できるか、ポイズニング率または攻撃者が使用するトリガー信号の種類に関するいくつかの条件が満たされた場合にのみ有効であるという既存の防御との大きな違いを示しています。
実験は、さまざまなタイプのバックドア攻撃 (クリーンまたは破損したラベルによる) と、グローバルおよびローカルの両方のトリガー信号、サンプル固有およびソース固有のトリガーを含むトリガー信号を考慮して、いくつかの分類タスクとネットワーク アーキテクチャで実行されました。
提案された方法は、あらゆるケースでバックドア攻撃を防御するのに非常に効果的であり、常に最先端の技術を上回っていることが明らかになりました。

要約(オリジナル)

We propose a Universal Defence against backdoor attacks based on Clustering and Centroids Analysis (CCA-UD). The goal of the defence is to reveal whether a Deep Neural Network model is subject to a backdoor attack by inspecting the training dataset. CCA-UD first clusters the samples of the training set by means of density-based clustering. Then, it applies a novel strategy to detect the presence of poisoned clusters. The proposed strategy is based on a general misclassification behaviour observed when the features of a representative example of the analysed cluster are added to benign samples. The capability of inducing a misclassification error is a general characteristic of poisoned samples, hence the proposed defence is attack-agnostic. This marks a significant difference with respect to existing defences, that, either can defend against only some types of backdoor attacks, or are effective only when some conditions on the poisoning ratio or the kind of triggering signal used by the attacker are satisfied. Experiments carried out on several classification tasks and network architectures, considering different types of backdoor attacks (with either clean or corrupted labels), and triggering signals, including both global and local triggering signals, as well as sample-specific and source-specific triggers, reveal that the proposed method is very effective to defend against backdoor attacks in all the cases, always outperforming the state of the art techniques.

arxiv情報

著者 Wei Guo,Benedetta Tondi,Mauro Barni
発行日 2023-10-05 13:26:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク