要約
Web スクレイピングされた膨大な量のデータでトレーニングされた詳細な画像分類モデルは、バックドア モデルのメカニズムであるデータ ポイズニングの影響を受けやすくなります。
トレーニング中に少数の有害なサンプルが見られると、推論中のモデルの整合性が著しく損なわれる可能性があります。
既存の研究では、効果的な防御とは、(i) 修復によってモデルの完全性を回復するか、(ii) 攻撃を検出するかのいずれかであると考えられています。
私たちは、このアプローチは重大なトレードオフを見落としていると主張します。つまり、攻撃者は検出可能性を犠牲にして堅牢性を高めるか (過剰ポイズニング)、堅牢性を犠牲にして検出可能性を低下させる (過小ポイズニング) 可能性があります。
実際には、攻撃は検出不可能であり、堅牢である必要があります。
検出可能だが強力な攻撃は、人間の注意を引きつけて厳密なモデル評価を行うか、モデルの再トレーニングまたは破棄を引き起こします。
対照的に、検出できないが堅牢性に欠ける攻撃は、モデルの精度への影響を最小限に抑えて修復できます。
私たちの調査は、現在の攻撃評価方法に本質的な欠陥があることを指摘しており、堅牢性と検出不可能性を維持するためにこのトレードオフのバランスを微妙にとらなければならないすべてのデータポイズニング攻撃者のハードルを引き上げています。
より強力な防御者の存在を実証するために、限られた量の信頼できる画像ラベルのペアを使用して、汚染されたモデルを (i) 検出または (ii) 修復するように設計された防御を提案します。
私たちの結果は、堅牢で検出不可能である必要がある攻撃者の脅威は大幅に低いことを示しています。
当社の防御は、CIFAR-10 では 1%、ImageNet では 2.5% のクリーン データのみを使用して、テスト済みのすべての攻撃を最大 2% の精度低下で軽減します。
CLIP などの大規模なビジョン言語モデルを評価することで、防御のスケーラビリティを実証します。
モデルのパラメータを操作できる攻撃者は、データポイズニング攻撃者と比較して、低い検出可能性でより高い堅牢性を達成できるため、高いリスクをもたらします。
要約(オリジナル)
Deep image classification models trained on vast amounts of web-scraped data are susceptible to data poisoning – a mechanism for backdooring models. A small number of poisoned samples seen during training can severely undermine a model’s integrity during inference. Existing work considers an effective defense as one that either (i) restores a model’s integrity through repair or (ii) detects an attack. We argue that this approach overlooks a crucial trade-off: Attackers can increase robustness at the expense of detectability (over-poisoning) or decrease detectability at the cost of robustness (under-poisoning). In practice, attacks should remain both undetectable and robust. Detectable but robust attacks draw human attention and rigorous model evaluation or cause the model to be re-trained or discarded. In contrast, attacks that are undetectable but lack robustness can be repaired with minimal impact on model accuracy. Our research points to intrinsic flaws in current attack evaluation methods and raises the bar for all data poisoning attackers who must delicately balance this trade-off to remain robust and undetectable. To demonstrate the existence of more potent defenders, we propose defenses designed to (i) detect or (ii) repair poisoned models using a limited amount of trusted image-label pairs. Our results show that an attacker who needs to be robust and undetectable is substantially less threatening. Our defenses mitigate all tested attacks with a maximum accuracy decline of 2% using only 1% of clean data on CIFAR-10 and 2.5% on ImageNet. We demonstrate the scalability of our defenses by evaluating large vision-language models, such as CLIP. Attackers who can manipulate the model’s parameters pose an elevated risk as they can achieve higher robustness at low detectability compared to data poisoning attackers.
arxiv情報
著者 | Nils Lukas,Florian Kerschbaum |
発行日 | 2023-06-29 15:23:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google