要約
最新の機械学習モデルのトレーニングに必要なデータ量を考慮すると、外部サプライヤーの使用が増えています。
ただし、外部データを組み込むと、攻撃者がデータを操作してモデルの有用性や整合性を低下させるデータポイズニングのリスクが生じます。
ほとんどのポイズニング防御は、クリーンなデータのセット (またはベース セット) へのアクセスを前提としています。
ステルスポイズニング攻撃に関する研究が急速に成長していることを考えると、この仮定は当然のことと考えられていますが、防御側は防御をサポートするために汚染されたデータセット内のクリーンなサブセットを本当に特定できるのでしょうか?という疑問が生じます。
この論文は、毒を含むサンプルが基本セットに誤って混入した場合の防御に対する影響を調べることから始めます。
5 つのディフェンスを分析したところ、基本セットのポイズニング ポイントが 1% 未満であるとパフォーマンスが大幅に低下することがわかりました。
これらの発見は、基本セットを高精度で選別することが、これらの防御のパフォーマンスの鍵であることを示唆しています。
これらの観察に基づいて、私たちは、データポイズニングが存在する中でクリーンなデータを識別する際に、既存の自動化ツールと人間による検査がどの程度正確であるかを研究しています。
残念ながら、どちらの努力も必要な精度を達成できません。
さらに悪いことに、結果の多くはランダム選択よりも悪いものになります。
課題を明らかにすることに加えて、私たちは実践的な対策であるメタシフトを提案します。
私たちの手法は、既存の攻撃によって汚染されたサンプルがクリーンなデータの分布から移行しているという洞察に基づいています。
したがって、データセットのきれいな部分でトレーニングし、破損した部分でテストすると、予測損失が大きくなります。
この洞察を活用して、バイレベル最適化を策定してクリーンなデータを特定し、さらに効率と精度を向上させる一連の手法を導入します。
私たちの評価では、Meta-Sift が広範囲のポイズニング攻撃の下で 100% の精度でクリーンなベース セットを選別できることが示されています。
選択された基本セットは、防御を成功させるのに十分な大きさです。
要約(オリジナル)
Given the volume of data needed to train modern machine learning models, external suppliers are increasingly used. However, incorporating external data poses data poisoning risks, wherein attackers manipulate their data to degrade model utility or integrity. Most poisoning defenses presume access to a set of clean data (or base set). While this assumption has been taken for granted, given the fast-growing research on stealthy poisoning attacks, a question arises: can defenders really identify a clean subset within a contaminated dataset to support defenses? This paper starts by examining the impact of poisoned samples on defenses when they are mistakenly mixed into the base set. We analyze five defenses and find that their performance deteriorates dramatically with less than 1% poisoned points in the base set. These findings suggest that sifting out a base set with high precision is key to these defenses’ performance. Motivated by these observations, we study how precise existing automated tools and human inspection are at identifying clean data in the presence of data poisoning. Unfortunately, neither effort achieves the precision needed. Worse yet, many of the outcomes are worse than random selection. In addition to uncovering the challenge, we propose a practical countermeasure, Meta-Sift. Our method is based on the insight that existing attacks’ poisoned samples shifts from clean data distributions. Hence, training on the clean portion of a dataset and testing on the corrupted portion will result in high prediction loss. Leveraging the insight, we formulate a bilevel optimization to identify clean data and further introduce a suite of techniques to improve efficiency and precision. Our evaluation shows that Meta-Sift can sift a clean base set with 100% precision under a wide range of poisoning attacks. The selected base set is large enough to give rise to successful defenses.
arxiv情報
著者 | Yi Zeng,Minzhou Pan,Himanshu Jahagirdar,Ming Jin,Lingjuan Lyu,Ruoxi Jia |
発行日 | 2023-05-31 17:58:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google