Poisoning Web-Scale Training Datasets is Practical

要約

ディープ ラーニング モデルは、多くの場合、インターネットからクロールされた分散型の Web スケール データセットでトレーニングされます。
このホワイト ペーパーでは、悪意のある例をモデルのパフォーマンスに意図的に導入する 2 つの新しいデータセット ポイズニング攻撃を紹介します。
私たちの攻撃はすぐに実行可能になり、今日では 10 の一般的なデータセットを汚染する可能性があります。
私たちの最初の攻撃である分割ビュー ポイズニングは、インターネット コンテンツの変更可能な性質を悪用して、データセット アノテーターのデータセットの最初のビューが、後続のクライアントによってダウンロードされるビューと異なるようにします。
特定の無効な信頼の仮定を悪用することで、わずか 60 米ドルで LAION-400M または COYO-700M データセットの 0.01% を汚染することができた方法を示します。
2 番目の攻撃であるフロントランニング ポイズニングは、ウィキペディアなどのクラウドソース コンテンツのスナップショットを定期的に作成する Web スケールのデータセットを標的としています。
両方の攻撃に照らして、影響を受ける各データセットのメンテナーに通知し、いくつかの低オーバーヘッド防御を推奨しました。

要約(オリジナル)

Deep learning models are often trained on distributed, webscale datasets crawled from the internet. In this paper, we introduce two new dataset poisoning attacks that intentionally introduce malicious examples to a model’s performance. Our attacks are immediately practical and could, today, poison 10 popular datasets. Our first attack, split-view poisoning, exploits the mutable nature of internet content to ensure a dataset annotator’s initial view of the dataset differs from the view downloaded by subsequent clients. By exploiting specific invalid trust assumptions, we show how we could have poisoned 0.01% of the LAION-400M or COYO-700M datasets for just $60 USD. Our second attack, frontrunning poisoning, targets web-scale datasets that periodically snapshot crowd-sourced content — such as Wikipedia — where an attacker only needs a time-limited window to inject malicious examples. In light of both attacks, we notify the maintainers of each affected dataset and recommended several low-overhead defenses.

arxiv情報

著者 Nicholas Carlini,Matthew Jagielski,Christopher A. Choquette-Choo,Daniel Paleka,Will Pearce,Hyrum Anderson,Andreas Terzis,Kurt Thomas,Florian Tramèr
発行日 2023-02-20 18:30:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク