要約
実世界のアプリケーションにおけるディープ ニューラル ネットワーク (DNN) の成功は、豊富な事前トレーニング済みモデルの恩恵を受けてきました。
ただし、バックドア付きの事前トレーニング済みモデルは、ダウンストリーム DNN の展開に重大なトロイの木馬の脅威をもたらす可能性があります。
既存の DNN テスト方法は主に、敵対的な設定で誤ったコーナー ケースの動作を検出するように設計されていますが、強力なトロイの木馬攻撃によって作成されたバックドアを検出することはできません。
トロイの木馬ネットワークの動作を観察すると、以前の研究で提案されているように、侵害された単一のニューロンによって反映されているだけでなく、複数のニューロンの活性化の強度と頻度における重要な神経経路に起因することが示されています。
この作業は、DNN バックドア テストを策定し、CatchBackdoor フレームワークを提案します。
少数の無害な例から重要なニューロンの差分ファジングを介して、トロイの木馬のパス、特に重要なパスを特定し、特定されたパスの重要なニューロンをシミュレートしてバックドア テストの例を生成します。
広範な実験により、CatchBackdoor の優位性が実証されており、既存の方法よりも高い検出性能を備えています。
CatchBackdoor は、既存の方法では検出できないステルス ブレンディングと適応攻撃によるバックドアの検出に優れています。
さらに、私たちの実験は、CatchBackdoor が Model Zoo のモデルの潜在的なバックドアを明らかにする可能性があることを示しています。
要約(オリジナル)
The success of deep neural networks (DNNs) in real-world applications has benefited from abundant pre-trained models. However, the backdoored pre-trained models can pose a significant trojan threat to the deployment of downstream DNNs. Existing DNN testing methods are mainly designed to find incorrect corner case behaviors in adversarial settings but fail to discover the backdoors crafted by strong trojan attacks. Observing the trojan network behaviors shows that they are not just reflected by a single compromised neuron as proposed by previous work but attributed to the critical neural paths in the activation intensity and frequency of multiple neurons. This work formulates the DNN backdoor testing and proposes the CatchBackdoor framework. Via differential fuzzing of critical neurons from a small number of benign examples, we identify the trojan paths and particularly the critical ones, and generate backdoor testing examples by simulating the critical neurons in the identified paths. Extensive experiments demonstrate the superiority of CatchBackdoor, with higher detection performance than existing methods. CatchBackdoor works better on detecting backdoors by stealthy blending and adaptive attacks, which existing methods fail to detect. Moreover, our experiments show that CatchBackdoor may reveal the potential backdoors of models in Model Zoo.
arxiv情報
著者 | Haibo Jin,Ruoxi Chen,Jinyin Chen,Yao Cheng,Chong Fu,Ting Wang,Yue Yu,Zhaoyan Ming |
発行日 | 2023-02-21 14:02:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google