要約
学習ベースのシステムは、バックドア攻撃に対して脆弱であることが実証されています。バックドア攻撃では、悪意のあるユーザーがターゲット モデルにバックドアを挿入し、特定のトリガーでバックドアをアクティブにすることでモデルのパフォーマンスを操作します。
以前のバックドア攻撃手法は主に、攻撃の成功率とステルス性という 2 つの重要な指標に焦点を当てていました。
ただし、これらの方法では、トレーニング プロセスの制御など、ターゲット モデルに対する重要な権限が必要になることが多く、現実のシナリオでの実装が困難になります。
さらに、既存のバックドア攻撃の堅牢性は保証されておらず、画像拡張やモデル蒸留などの防御に対して脆弱であることがわかっています。
このペーパーでは、これら 2 つの制限に対処し、RSBA (特権制約のあるシナリオでの堅牢な統計的バックドア攻撃) を紹介します。
RSBA の重要な洞察は、統計的特徴により画像を自然に異なるグループに分割し、トリガーの実装の可能性を提供できるということです。
このタイプのトリガーは、通常のイメージに広く分布しているため、手動で設計されたトリガーよりも堅牢です。
RSBA では、これらの統計トリガーを活用することで、攻撃者がラベルまたは画像を毒するだけでブラックボックス攻撃を実行できるようになります。
私たちは、画像拡張とモデル蒸留に対する RSBA の堅牢性を経験的および理論的に実証します。
実験結果によると、RSBA はブラックボックス シナリオで 99.83% の攻撃成功率を達成しました。
驚くべきことに、攻撃者がスチューデント モデルのトレーニング データセットにアクセスできない場合でも、モデルの蒸留後でも高い成功率を維持します (ベースライン メソッドの成功率は平均 1.39\%)。
要約(オリジナル)
Learning-based systems have been demonstrated to be vulnerable to backdoor attacks, wherein malicious users manipulate model performance by injecting backdoors into the target model and activating them with specific triggers. Previous backdoor attack methods primarily focused on two key metrics: attack success rate and stealthiness. However, these methods often necessitate significant privileges over the target model, such as control over the training process, making them challenging to implement in real-world scenarios. Moreover, the robustness of existing backdoor attacks is not guaranteed, as they prove sensitive to defenses such as image augmentations and model distillation. In this paper, we address these two limitations and introduce RSBA (Robust Statistical Backdoor Attack under Privilege-constrained Scenarios). The key insight of RSBA is that statistical features can naturally divide images into different groups, offering a potential implementation of triggers. This type of trigger is more robust than manually designed ones, as it is widely distributed in normal images. By leveraging these statistical triggers, RSBA enables attackers to conduct black-box attacks by solely poisoning the labels or the images. We empirically and theoretically demonstrate the robustness of RSBA against image augmentations and model distillation. Experimental results show that RSBA achieves a 99.83\% attack success rate in black-box scenarios. Remarkably, it maintains a high success rate even after model distillation, where attackers lack access to the training dataset of the student model (1.39\% success rate for baseline methods on average).
arxiv情報
著者 | Xiaolei Liu,Ming Yi,Kangyi Ding,Bangzhou Xin,Yixiao Xu,Li Yan,Chao Shen |
発行日 | 2024-03-11 17:14:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google