Protecting against simultaneous data poisoning attacks

要約

現在のバックドア防御方法は、一度に 1 つの攻撃に対して評価されます。
強力な機械学習システムはインターネットから収集された大規模なデータセットでトレーニングされており、1 人以上の攻撃者によって複数回攻撃される可能性があるため、これは非現実的です。
同時に実行されたデータポイズニング攻撃により、クリーンな精度を大幅に低下させることなく、単一のモデルに複数のバックドアを効果的にインストールできることを実証します。
さらに、既存のバックドア防御方法では、この設定では攻撃を効果的に防止できないことを示します。
最後に、バックドア攻撃の性質に関する洞察を活用して、マルチ攻撃設定で効果的な新しい防御策である BaDLoss を開発します。
クリーンな精度の低下を最小限に抑え、BaDLoss はマルチ攻撃設定で平均攻撃成功率を達成し、CIFAR-10 では 7.98%、GTSRB では 10.29% を達成しました。これに対し、他の防御の平均はそれぞれ 64.48% と 84.28% でした。

要約(オリジナル)

Current backdoor defense methods are evaluated against a single attack at a time. This is unrealistic, as powerful machine learning systems are trained on large datasets scraped from the internet, which may be attacked multiple times by one or more attackers. We demonstrate that simultaneously executed data poisoning attacks can effectively install multiple backdoors in a single model without substantially degrading clean accuracy. Furthermore, we show that existing backdoor defense methods do not effectively prevent attacks in this setting. Finally, we leverage insights into the nature of backdoor attacks to develop a new defense, BaDLoss, that is effective in the multi-attack setting. With minimal clean accuracy degradation, BaDLoss attains an average attack success rate in the multi-attack setting of 7.98% in CIFAR-10 and 10.29% in GTSRB, compared to the average of other defenses at 64.48% and 84.28% respectively.

arxiv情報

著者 Neel Alex,Shoaib Ahmed Siddiqui,Amartya Sanyal,David Krueger
発行日 2024-08-23 16:57:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク