Blacklight: Scalable Defense for Neural Networks against Query-Based Black-Box Attacks

要約

ディープラーニングシステムは、敵対的な例に対して脆弱であることが知られている。特に、クエリベースのブラックボックス攻撃は、深層学習モデルの知識を必要とせず、クエリを送信して返り値を検査することで、ネットワーク上で敵対的な例を計算することができます。最近の研究では、これらの攻撃の効率が大きく改善され、今日のML-as-a-serviceプラットフォームでの実用性が実証されています。 我々は、クエリベースのブラックボックス敵対的攻撃に対する新しい防御法であるBlacklightを提案する。我々の設計の基本的な洞察は、敵対的な例を計算するために、これらの攻撃はネットワーク上で反復的な最適化を行い、入力空間で非常に類似した画像クエリを生成することである。Blacklightは、確率的コンテンツフィンガープリントで動作する効率的な類似性エンジンを使用して、高度に類似したクエリを検出することにより、クエリベースのブラックボックス攻撃を検出する。我々は、様々なモデルと画像分類タスクにおいて、8つの最新鋭の攻撃に対してBlacklightを評価した。Blacklightはこれら全てを識別し、多くの場合、ほんの数回のクエリの後に識別した。検出された全てのクエリーを拒否することにより、Blacklightは、攻撃者がアカウント禁止またはクエリー拒否後もクエリーを送信し続ける場合でも、攻撃が完了するのを防ぐことができる。また、Blacklightは、効率的にホワイトボックス攻撃を近似する最適なブラックボックス攻撃など、いくつかの強力な対策に対しても堅牢です。最後に、Blacklightがテキスト分類のような他のドメインにどのように一般化されるかを説明する。

要約(オリジナル)

Deep learning systems are known to be vulnerable to adversarial examples. In particular, query-based black-box attacks do not require knowledge of the deep learning model, but can compute adversarial examples over the network by submitting queries and inspecting returns. Recent work largely improves the efficiency of those attacks, demonstrating their practicality on today’s ML-as-a-service platforms. We propose Blacklight, a new defense against query-based black-box adversarial attacks. The fundamental insight driving our design is that, to compute adversarial examples, these attacks perform iterative optimization over the network, producing image queries highly similar in the input space. Blacklight detects query-based black-box attacks by detecting highly similar queries, using an efficient similarity engine operating on probabilistic content fingerprints. We evaluate Blacklight against eight state-of-the-art attacks, across a variety of models and image classification tasks. Blacklight identifies them all, often after only a handful of queries. By rejecting all detected queries, Blacklight prevents any attack to complete, even when attackers persist to submit queries after account ban or query rejection. Blacklight is also robust against several powerful countermeasures, including an optimal black-box attack that approximates white-box attacks in efficiency. Finally, we illustrate how Blacklight generalizes to other domains like text classification.

arxiv情報

著者 Huiying Li,Shawn Shan,Emily Wenger,Jiayun Zhang,Haitao Zheng,Ben Y. Zhao
発行日 2022-06-09 05:11:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク