要約
バックドア化された機械学習(ML)モデルを検出する既存の手法のほとんどは、トリガー反転(別名:リバースエンジニアリング)と重み分析(別名:モデル診断)の2つのアプローチのいずれかを取る。特に、勾配ベースのトリガー反転は、TrojAIコンペティション、Trojan Detection Challenge、およびbackdoorBenchによって証明されているように、最も効果的なバックドア検出技術の1つであると考えられています。しかし、なぜこのテクニックがこれほどうまく機能するのか、さらに重要なことは、バックドア攻撃のハードルを上げているのかについては、ほとんど理解されていない。本論文では、トリガーを持つ入力周りのバックドアモデルの変化率を分析することで、この疑問に答える最初の試みを報告する。我々の研究により、既存の攻撃は、勾配に基づくトリガー反転によって捕捉しやすい、トリガーを運ぶ入力の周りの低い変化率によって特徴付けられるバックドアを注入する傾向があることが示された。一方、我々は、バックドア攻撃が成功するためには、低い変化率は必要ではないことを発見した。また、この新しい手法の有効性と、勾配に基づくトリガー反転の基本的な弱点を説明するための理論的分析を行う。最後に、理論と実験の両分析を行い、GRASPによる強化が、重み解析に基づくバックドア検出手法や、検出を用いない他のバックドア緩和手法に対するステルス攻撃の有効性を低下させないことを示す。
要約(オリジナル)
Most existing methods to detect backdoored machine learning (ML) models take one of the two approaches: trigger inversion (aka. reverse engineer) and weight analysis (aka. model diagnosis). In particular, the gradient-based trigger inversion is considered to be among the most effective backdoor detection techniques, as evidenced by the TrojAI competition, Trojan Detection Challenge and backdoorBench. However, little has been done to understand why this technique works so well and, more importantly, whether it raises the bar to the backdoor attack. In this paper, we report the first attempt to answer this question by analyzing the change rate of the backdoored model around its trigger-carrying inputs. Our study shows that existing attacks tend to inject the backdoor characterized by a low change rate around trigger-carrying inputs, which are easy to capture by gradient-based trigger inversion. In the meantime, we found that the low change rate is not necessary for a backdoor attack to succeed: we design a new attack enhancement called \textit{Gradient Shaping} (GRASP), which follows the opposite direction of adversarial training to reduce the change rate of a backdoored model with regard to the trigger, without undermining its backdoor effect. Also, we provide a theoretic analysis to explain the effectiveness of this new technique and the fundamental weakness of gradient-based trigger inversion. Finally, we perform both theoretical and experimental analysis, showing that the GRASP enhancement does not reduce the effectiveness of the stealthy attacks against the backdoor detection methods based on weight analysis, as well as other backdoor mitigation methods without using detection.
arxiv情報
著者 | Rui Zhu,Di Tang,Siyuan Tang,Guanhong Tao,Shiqing Ma,Xiaofeng Wang,Haixu Tang |
発行日 | 2024-03-02 22:56:23+00:00 |
arxivサイト | arxiv_id(pdf) |