Towards Sample-specific Backdoor Attack with Clean Labels via Attribute Trigger

要約

現在、サンプル固有のバックドア攻撃(SSBA)は、現在のバックドア防御のほとんどを簡単に回避できるため、最も高度で悪意のある方法です。
この論文では、SSBAは、毒界の性質のために十分にステルスではないことを明らかにします。ここでは、ユーザーが画像界の関係をチェックすると異常を発見できます。
特に、ターゲットクラスのみからサンプルを中毒することにより、既存のSSBAをクリーンラベルバリアントに直接一般化することは効果がないことを実証します。
\ textBf {(1)}を含む2つの理由が原因であることを明らかにします。グラウンドトゥルース機能の「拮抗効果」と\ textBf {(2)}サンプル固有の特徴の学習難易度。
したがって、既存のSSBAのトリガー関連の機能は、ステルス性を確保するために必要な軽度のトリガー強度のため、クリーンラベル設定の下で効果的に学習することはできません。
既存のSSBAの強度の制約は、そのトリガーパターンが「コンテンツと無関係」であり、したがって人間とDNNの両方で「ノイズ」として機能するためであると主張します。
この理解に動機付けられて、私たちは、クリーンラベルSSBASを設計するトリガーパターンとして、コンテンツに関連する機能、$ a.k.a. $(人間による)属性を活用することを提案します。
この新しい攻撃パラダイムは、属性トリガー(BAAT)を備えたバックドア攻撃と呼ばれます。
ベンチマークデータセットで広範な実験が行われ、BAATの有効性と既存の防御に対する抵抗が検証されます。

要約(オリジナル)

Currently, sample-specific backdoor attacks (SSBAs) are the most advanced and malicious methods since they can easily circumvent most of the current backdoor defenses. In this paper, we reveal that SSBAs are not sufficiently stealthy due to their poisoned-label nature, where users can discover anomalies if they check the image-label relationship. In particular, we demonstrate that it is ineffective to directly generalize existing SSBAs to their clean-label variants by poisoning samples solely from the target class. We reveal that it is primarily due to two reasons, including \textbf{(1)} the `antagonistic effects’ of ground-truth features and \textbf{(2)} the learning difficulty of sample-specific features. Accordingly, trigger-related features of existing SSBAs cannot be effectively learned under the clean-label setting due to their mild trigger intensity required for ensuring stealthiness. We argue that the intensity constraint of existing SSBAs is mostly because their trigger patterns are `content-irrelevant’ and therefore act as `noises’ for both humans and DNNs. Motivated by this understanding, we propose to exploit content-relevant features, $a.k.a.$ (human-relied) attributes, as the trigger patterns to design clean-label SSBAs. This new attack paradigm is dubbed backdoor attack with attribute trigger (BAAT). Extensive experiments are conducted on benchmark datasets, which verify the effectiveness of our BAAT and its resistance to existing defenses.

arxiv情報

著者 Mingyan Zhu,Yiming Li,Junfeng Guo,Tao Wei,Shu-Tao Xia,Zhan Qin
発行日 2025-03-14 13:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク