Scanning Trojaned Models Using Out-of-Distribution Samples

要約

深いニューラルネットワークでのトロイの木馬(バックドア)のスキャンは、実世界の重要なアプリケーションのために重要です。
さまざまなトロイの木馬攻撃にわたって効果的な一般的なトロイの木馬スキャン方法の開発に焦点が合っています。
進歩にもかかわらず、バックドア攻撃方法に関する先入観なしに効果的に機能する方法が不足しています。
さらに、現在の方法では、敵対的な訓練を使用してトロイジャン化された分類器を特定するのに苦労していることが観察されています。
これらの課題に動機付けられた私たちの研究では、Trodoという名前の新しいスキャン方法を導入します(分散型サンプルの敵対的な変化の検出によるトロイの木馬スキャン)。
Trodoは、「盲点」の概念を活用しています。これは、トロイジャン化された分類子が、分散除外(OOD)サンプルを誤って分布(ID)として誤って識別します。
これらの盲点は、分布内に敵対的に変化するOODサンプルをスキャンします。
IDとして分類される混乱したOODサンプルの可能性の増加は、トロイの木馬検出の署名として機能します。
Trodoは、トロイの木馬とラベルマッピングの両方の不可知論者の両方であり、敵対的に訓練されたトロイジャン化された分類器に対しても効果的です。
トレーニングデータが存在しないシナリオでも適用され、さまざまなシナリオとデータセットにわたって高い精度と適応性を実証し、堅牢なトロイの木馬スキャン戦略としての可能性を強調しています。

要約(オリジナル)

Scanning for trojan (backdoor) in deep neural networks is crucial due to their significant real-world applications. There has been an increasing focus on developing effective general trojan scanning methods across various trojan attacks. Despite advancements, there remains a shortage of methods that perform effectively without preconceived assumptions about the backdoor attack method. Additionally, we have observed that current methods struggle to identify classifiers trojaned using adversarial training. Motivated by these challenges, our study introduces a novel scanning method named TRODO (TROjan scanning by Detection of adversarial shifts in Out-of-distribution samples). TRODO leverages the concept of ‘blind spots’–regions where trojaned classifiers erroneously identify out-of-distribution (OOD) samples as in-distribution (ID). We scan for these blind spots by adversarially shifting OOD samples towards in-distribution. The increased likelihood of perturbed OOD samples being classified as ID serves as a signature for trojan detection. TRODO is both trojan and label mapping agnostic, effective even against adversarially trained trojaned classifiers. It is applicable even in scenarios where training data is absent, demonstrating high accuracy and adaptability across various scenarios and datasets, highlighting its potential as a robust trojan scanning strategy.

arxiv情報

著者 Hossein Mirzaei,Ali Ansari,Bahar Dibaei Nia,Mojtaba Nafez,Moein Madadi,Sepehr Rezaee,Zeinab Sadat Taghavi,Arad Maleki,Kian Shamsaie,Mahdi Hajialilue,Jafar Habibi,Mohammad Sabokrou,Mohammad Hossein Rohban
発行日 2025-01-28 18:53:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク