要約
実世界のアプリケーションにおけるディープ ニューラル ネットワーク (DNN) の成功は、豊富な事前トレーニング済みモデルの恩恵を受けています。
ただし、バックドアが組み込まれた事前トレーニング済みモデルは、ダウンストリーム DNN の展開に対して重大なトロイの木馬の脅威となる可能性があります。
数多くのバックドア検出方法が提案されていますが、次の 2 つの側面に限定されています。(1) トリガー サイズ、特にステルス攻撃 (つまり、混合攻撃と防御適応型攻撃) に対する高い感度。
(2) リバースエンジニアリングでは無害な例に大きく依存します。
これらの課題に対処するために、さまざまなトロイの木馬攻撃によって引き起こされるトロイの木馬の動作は、モデル予測の変更により大きく寄与する上位 $k$ のクリティカル ニューロンで構成されるトロイの木馬のパスに起因する可能性があることを経験的に観察しました。
これを動機として、私たちはトロイの木馬攻撃に対する検出方法である CatchBackdoor を提案します。
トロイの木馬の動作とエラーを引き起こすトロイの木馬のパスとの密接な関係に基づいて、CatchBackdoor は無害なパスから開始し、差分ファジングを通じて徐々にトロイの木馬のパスに近づきます。
次に、トロイの木馬のパスからのトリガーを反転して、さまざまなトロイの木馬攻撃によって引き起こされるエラーをトリガーします。
MINST、CIFAR-10、a-ImageNet データセットと 7 つのモデル (LeNet、ResNet、VGG) に関する広範な実験により、(1) \emph{ の点で CatchBackdoor が最先端の手法よりも優れていることが実証されました。
効果的} – 特にステルス攻撃において、より優れた検出パフォーマンスを示します (平均 $\sim$ $\times$ 2)。
(2) \emph{extensible} – トリガーサイズに対して堅牢であり、良性の例がなくても検出を実行できます。
要約(オリジナル)
The success of deep neural networks (DNNs) in real-world applications has benefited from abundant pre-trained models. However, the backdoored pre-trained models can pose a significant trojan threat to the deployment of downstream DNNs. Numerous backdoor detection methods have been proposed but are limited to two aspects: (1) high sensitivity on trigger size, especially on stealthy attacks (i.e., blending attacks and defense adaptive attacks); (2) rely heavily on benign examples for reverse engineering. To address these challenges, we empirically observed that trojaned behaviors triggered by various trojan attacks can be attributed to the trojan path, composed of top-$k$ critical neurons with more significant contributions to model prediction changes. Motivated by it, we propose CatchBackdoor, a detection method against trojan attacks. Based on the close connection between trojaned behaviors and trojan path to trigger errors, CatchBackdoor starts from the benign path and gradually approximates the trojan path through differential fuzzing. We then reverse triggers from the trojan path, to trigger errors caused by diverse trojaned attacks. Extensive experiments on MINST, CIFAR-10, and a-ImageNet datasets and 7 models (LeNet, ResNet, and VGG) demonstrate the superiority of CatchBackdoor over the state-of-the-art methods, in terms of (1) \emph{effective} – it shows better detection performance, especially on stealthy attacks ($\sim$ $\times$ 2 on average); (2) \emph{extensible} – it is robust to trigger size and can conduct detection without benign examples.
arxiv情報
著者 | Haibo Jin,Ruoxi Chen,Jinyin Chen,Haibin Zheng,Yang Zhang,Haohan Wang |
発行日 | 2024-07-17 13:58:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google