RAB: Provable Robustness Against Backdoor Attacks

要約

最近の研究により、ディープニューラルネットワーク(DNN)は回避攻撃やバックドア(ポイズニング)攻撃を含む敵対的攻撃に対して脆弱であることが示されている。防御側では、回避攻撃に対する経験的ロバスト性と証明可能なロバスト性の両方を向上させるための集中的な取り組みが行われてきたが、バックドア攻撃に対する証明可能なロバスト性はまだほとんど未解明である。本稿では、一般的な脅威モデル、特にバックドア攻撃に対する機械学習モデルの頑健性の証明に焦点を当てる。まず、ランダム化平滑化技術を用いた統一的なフレームワークを提供し、回避攻撃とバックドア攻撃の両方に対する頑健性を証明するために、どのようにインスタンス化できるかを示す。次に、学習済みモデルを平滑化し、バックドア攻撃に対する頑健性を証明するために、最初の頑健な学習プロセスであるRABを提案する。RABを用いて訓練された機械学習モデルの頑健性境界を証明し、我々の頑健性境界がタイトであることを証明する。さらに、K-最近傍分類器のような単純なモデルに対して、ロバストな平滑化モデルを効率的に学習することが可能であることを理論的に示し、そのようなモデルに対してノイズ分布からのサンプリングを不要とする厳密な平滑化学習アルゴリズムを提案する。経験的には、MNIST、CIFAR-10、ImageNetteデータセットを用いて、DNN、サポートベクターマシン、K-NNモデルなどの様々な機械学習(ML)モデルに対する包括的な実験を行い、バックドア攻撃に対する頑健性を証明する最初のベンチマークを提供する。さらに、K-NNモデルをスパンベース表データセット上で評価し、提案する厳密アルゴリズムの利点を実証する。理論的な解析と、多様なMLモデルとデータセットに対する包括的な評価の両方が、一般的な訓練時間攻撃に対する更なる頑健な学習戦略に光を当てる。

要約(オリジナル)

Recent studies have shown that deep neural networks (DNNs) are vulnerable to adversarial attacks, including evasion and backdoor (poisoning) attacks. On the defense side, there have been intensive efforts on improving both empirical and provable robustness against evasion attacks; however, the provable robustness against backdoor attacks still remains largely unexplored. In this paper, we focus on certifying the machine learning model robustness against general threat models, especially backdoor attacks. We first provide a unified framework via randomized smoothing techniques and show how it can be instantiated to certify the robustness against both evasion and backdoor attacks. We then propose the first robust training process, RAB, to smooth the trained model and certify its robustness against backdoor attacks. We prove the robustness bound for machine learning models trained with RAB and prove that our robustness bound is tight. In addition, we theoretically show that it is possible to train the robust smoothed models efficiently for simple models such as K-nearest neighbor classifiers, and we propose an exact smooth-training algorithm that eliminates the need to sample from a noise distribution for such models. Empirically, we conduct comprehensive experiments for different machine learning (ML) models such as DNNs, support vector machines, and K-NN models on MNIST, CIFAR-10, and ImageNette datasets and provide the first benchmark for certified robustness against backdoor attacks. In addition, we evaluate K-NN models on a spambase tabular dataset to demonstrate the advantages of the proposed exact algorithm. Both the theoretic analysis and the comprehensive evaluation on diverse ML models and datasets shed light on further robust learning strategies against general training time attacks.

arxiv情報

著者 Maurice Weber,Xiaojun Xu,Bojan Karlaš,Ce Zhang,Bo Li
発行日 2023-08-03 14:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク