Defense Against Multi-target Trojan Attacks

要約

ディープラーニングベースのモデルに対する敵対的攻撃は、現在のAIインフラストラクチャに重大な脅威をもたらします。
その中で、トロイの木馬攻撃は防御するのが最も困難です。
このホワイトペーパーでは、最初に、トロイの木馬のバックドアを複数のターゲットクラスに導入し、画像内の任意の場所にトリガーを配置できるようにする、Badnetの種類の攻撃のバリエーションを紹介します。
前者はそれをより強力にし、後者は物理空間での攻撃を非常に簡単に実行できるようにします。
最先端のトロイの木馬検出方法は、この脅威モデルでは失敗します。
この攻撃を防ぐために、まず、複数の画像を使用してさまざまな潜在的なトリガーを回復するトリガーリバースエンジニアリングメカニズムを導入します。
次に、このような回復されたトリガーの転送可能性を測定することにより、検出メカニズムを提案します。
トロイの木馬トリガーは非常に高い転送可能性を備えています。つまり、他の画像も同じクラスに移動します。
攻撃方法の多くの実用的な利点を研究し、さまざまな画像データセットを使用して検出パフォーマンスを示します。
実験結果は、最先端の方法よりも優れた検出性能を示しています。

要約(オリジナル)

Adversarial attacks on deep learning-based models pose a significant threat to the current AI infrastructure. Among them, Trojan attacks are the hardest to defend against. In this paper, we first introduce a variation of the Badnet kind of attacks that introduces Trojan backdoors to multiple target classes and allows triggers to be placed anywhere in the image. The former makes it more potent and the latter makes it extremely easy to carry out the attack in the physical space. The state-of-the-art Trojan detection methods fail with this threat model. To defend against this attack, we first introduce a trigger reverse-engineering mechanism that uses multiple images to recover a variety of potential triggers. We then propose a detection mechanism by measuring the transferability of such recovered triggers. A Trojan trigger will have very high transferability i.e. they make other images also go to the same class. We study many practical advantages of our attack method and then demonstrate the detection performance using a variety of image datasets. The experimental results show the superior detection performance of our method over the state-of-the-arts.

arxiv情報

著者 Haripriya Harikumar,Santu Rana,Kien Do,Sunil Gupta,Wei Zong,Willy Susilo,Svetha Venkastesh
発行日 2022-07-08 13:29:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク