要約
最近の研究では、深層学習モデルがポイズニング攻撃に対して非常に脆弱であることが示されています。
この問題に対処するために、多くの防御方法が提案されています。
ただし、従来の中毒攻撃は一般に信じられているほど脅威ではありません。
これは、検証セットと比較してトレーニング セットでのモデルのパフォーマンスに差異が生じることが多いためです。
このような不一致は、防御者にデータが汚染されていることを警告し、必要な防御措置を講じることができるようになります。
このペーパーでは、遅延ポイズニング攻撃と呼ばれる、より脅威的なタイプのポイズニング攻撃を紹介します。
この新しい攻撃により、モデルはトレーニングおよび検証フェーズ中に正常に機能することができますが、回避攻撃や自然ノイズに対して非常に敏感になります。
これは、ポイズニングされたモデルの損失関数が、各入力サンプルで通常にトレーニングされたモデルと同様の値を持つことを保証することで実現しますが、局所的な曲率は大きくなります。
同様のモデル損失により、トレーニングと検証の精度の間に明らかな矛盾がないことが保証され、高いステルス性が実証されます。
一方、曲率が大きいということは、小さな摂動がモデル損失の大幅な増加を引き起こし、大幅なパフォーマンスの低下につながる可能性があることを意味しており、これはロバスト性の低下を反映しています。
この目的は、提案した特異化正則化項を介してモデルに最適な点で特異ヘシアン情報を持たせることで実現します。
提案手法の理論的分析と実証的分析の両方を実施し、画像分類タスクの実験を通じてその有効性を検証しました。
さらに、自然騒音を使用したより一般的なシナリオの下でこの形式の中毒攻撃の危険性を確認し、セキュリティ分野の研究に新しい視点を提供しました。
要約(オリジナル)
Recent studies have shown that deep learning models are very vulnerable to poisoning attacks. Many defense methods have been proposed to address this issue. However, traditional poisoning attacks are not as threatening as commonly believed. This is because they often cause differences in how the model performs on the training set compared to the validation set. Such inconsistency can alert defenders that their data has been poisoned, allowing them to take the necessary defensive actions. In this paper, we introduce a more threatening type of poisoning attack called the Deferred Poisoning Attack. This new attack allows the model to function normally during the training and validation phases but makes it very sensitive to evasion attacks or even natural noise. We achieve this by ensuring the poisoned model’s loss function has a similar value as a normally trained model at each input sample but with a large local curvature. A similar model loss ensures that there is no obvious inconsistency between the training and validation accuracy, demonstrating high stealthiness. On the other hand, the large curvature implies that a small perturbation may cause a significant increase in model loss, leading to substantial performance degradation, which reflects a worse robustness. We fulfill this purpose by making the model have singular Hessian information at the optimal point via our proposed Singularization Regularization term. We have conducted both theoretical and empirical analyses of the proposed method and validated its effectiveness through experiments on image classification tasks. Furthermore, we have confirmed the hazards of this form of poisoning attack under more general scenarios using natural noise, offering a new perspective for research in the field of security.
arxiv情報
著者 | Yuhao He,Jinyu Tian,Xianwei Zheng,Li Dong,Yuanman Li,Jiantao Zhou |
発行日 | 2024-12-04 15:53:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google