Boosting Backdoor Attack with A Learnable Poisoning Sample Selection Strategy

要約

データポイズニング ベースのバックドア攻撃は、ターゲット モデルのトレーニング プロセスを制御せずにトレーニング データセットを操作することにより、モデルにバックドアを挿入することを目的としています。
既存の攻撃手法は主に、トリガーの設計、またはトリガーと無害なサンプル間の融合戦略に焦点を当てています。
ただし、バックドア インジェクションの観点から各汚染サンプルのさまざまな重要性を無視して、汚染するサンプルをランダムに選択することがよくあります。
最近の選択戦略では、忘却イベントを記録することで固定サイズの汚染サンプル プールをフィルタリングしますが、プールの外に残っているサンプルを全体的な観点から考慮することはできません。
さらに、忘却イベントを計算するには、大幅な追加のコンピューティング リソースが必要になります。
したがって、データセット全体からどのように効率的かつ効果的にポイズニングサンプルを選択するかがバックドア攻撃における緊急の課題です。これに対処するために、まず、通常のバックドアトレーニングロスにポイズニングマスクを導入します。
ハード ポイズニング サンプルを使用したバックドア モデル トレーニングは、通常のトレーニング プロセス (つまり、損失 \wrt マスクの最大化) を妨害することによって実装できる、簡単なサンプルに対するバックドア効果がより強いと考えられます。
これを通常のトレーニング プロセスとさらに統合するために、最小-最大最適化を通じてモデル パラメーターとともにマスクを学習する学習可能なポイズニング サンプル選択戦略を提案します。具体的には、外側のループは損失を最小限に抑えることでバックドア攻撃の目標を達成することを目的としています。
選択されたサンプルに基づいて、内側のループは損失を最大化することでこの目標を妨げるハード ポイズニング サンプルを選択します。
数回の敵対的トレーニングの後、最終的に貢献度の高い効果的な毒サンプルを選択します。
ベンチマーク データセットに関する広範な実験により、バックドア攻撃のパフォーマンスを向上させる当社のアプローチの有効性と効率性が実証されました。

要約(オリジナル)

Data-poisoning based backdoor attacks aim to insert backdoor into models by manipulating training datasets without controlling the training process of the target model. Existing attack methods mainly focus on designing triggers or fusion strategies between triggers and benign samples. However, they often randomly select samples to be poisoned, disregarding the varying importance of each poisoning sample in terms of backdoor injection. A recent selection strategy filters a fixed-size poisoning sample pool by recording forgetting events, but it fails to consider the remaining samples outside the pool from a global perspective. Moreover, computing forgetting events requires significant additional computing resources. Therefore, how to efficiently and effectively select poisoning samples from the entire dataset is an urgent problem in backdoor attacks.To address it, firstly, we introduce a poisoning mask into the regular backdoor training loss. We suppose that a backdoored model training with hard poisoning samples has a more backdoor effect on easy ones, which can be implemented by hindering the normal training process (\ie, maximizing loss \wrt mask). To further integrate it with normal training process, we then propose a learnable poisoning sample selection strategy to learn the mask together with the model parameters through a min-max optimization.Specifically, the outer loop aims to achieve the backdoor attack goal by minimizing the loss based on the selected samples, while the inner loop selects hard poisoning samples that impede this goal by maximizing the loss. After several rounds of adversarial training, we finally select effective poisoning samples with high contribution. Extensive experiments on benchmark datasets demonstrate the effectiveness and efficiency of our approach in boosting backdoor attack performance.

arxiv情報

著者 Zihao Zhu,Mingda Zhang,Shaokui Wei,Li Shen,Yanbo Fan,Baoyuan Wu
発行日 2023-07-14 13:12:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク