要約
サードパーティが提供する事前トレーニング済みモデルを利用することが、その利便性からますます一般的になっています。
ただし、同時に、これらのモデルは中毒攻撃と回避攻撃の両方に対して脆弱である可能性があります。
トレーニング配布からのクリーンなデータが防御側に利用できない場合に、事前トレーニングされたモデルの潜在的なセキュリティの脆弱性を軽減できるアルゴリズムフレームワークを紹介します。
フレームワークは、事前にトレーニングされたモデルからサンプルをリバースエンジニアリングします。
得られた合成サンプルは、さまざまな防御を実行するためのクリーンなデータの代わりに使用できます。
合成されたサンプルの有用性を示すために、2つの重要な攻撃シナリオ(バックドア攻撃と回避攻撃)を検討します。
どちらの攻撃についても、合成データが提供された場合、最新の防御は、同じ量のクリーンなデータが提供された場合と同等または場合によってはさらに優れたパフォーマンスを発揮することを示しています。
要約(オリジナル)
It is becoming increasingly common to utilize pre-trained models provided by third parties due to their convenience. At the same time, however, these models may be vulnerable to both poisoning and evasion attacks. We introduce an algorithmic framework that can mitigate potential security vulnerabilities in a pre-trained model when clean data from its training distribution is unavailable to the defender. The framework reverse-engineers samples from a given pre-trained model. The resulting synthetic samples can then be used as a substitute for clean data to perform various defenses. We consider two important attack scenarios — backdoor attacks and evasion attacks — to showcase the utility of synthesized samples. For both attacks, we show that when supplied with our synthetic data, the state-of-the-art defenses perform comparably or sometimes even better than the case when it’s supplied with the same amount of clean data.
arxiv情報
著者 | Si Chen,Yi Zeng,Won Park,Ruoxi Jia |
発行日 | 2022-06-14 17:32:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google