SoK: Pitfalls in Evaluating Black-Box Attacks

要約

画像分類器に対するブラックボックス攻撃を研究する研究が数多くあります。
しかし、これらの作品は敵対者の知識について異なる仮定を立てており、現在の文献には脅威モデルを中心とした一貫した構成が欠けています。
この分野の知識を体系化するために、フィードバックの粒度、対話型クエリのアクセス、攻撃者が利用できる補助データの質と量の軸にわたる脅威空間にわたる分類法を提案します。
私たちの新しい分類法は 3 つの重要な洞察を提供します。
1) 膨大な文献があるにもかかわらず、十分に調査されていない脅威空間が多数存在し、十分に調査された設定から技術を適応させても簡単に解決することはできません。
我々は、完全な信頼ベクトルにアクセスするという十分に研究された設定からの技術を適応させることにより、上位 k の信頼スコアへのアクセスというあまり研究されていない設定で新しい最先端技術を確立することによってこれを実証しますが、それがどのようにまだ不十分であるかを示します
予測ラベルのみを取得するより制限的な設定であり、さらなる調査の必要性が強調されています。
2) さまざまな攻撃の脅威モデルを特定することで、これまでの最先端の主張に異議を唱える強力なベースラインが明らかになります。
当初は弱いベースライン (対話型クエリ アクセス下) をサロゲート モデルによって強化することでこれを実証し、それぞれの論文の主張を効果的に覆しました。
3) 私たちの分類法は、モデル反転攻撃や抽出攻撃など、関連領域にうまくつながる攻撃者の知識間の相互作用を明らかにします。
他の分野の進歩により、潜在的により強力なブラックボックス攻撃がどのように可能になるかについて説明します。
最後に、ローカル攻撃の実行時間を考慮して、攻撃の成功をより現実的に評価する必要性を強調します。
このアプローチは、特定の攻撃が著しく高い成功率を達成する可能性と、多様でより困難な設定で攻撃を評価する必要性を明らかにし、より良い選択基準の必要性を強調しています。

要約(オリジナル)

Numerous works study black-box attacks on image classifiers. However, these works make different assumptions on the adversary’s knowledge and current literature lacks a cohesive organization centered around the threat model. To systematize knowledge in this area, we propose a taxonomy over the threat space spanning the axes of feedback granularity, the access of interactive queries, and the quality and quantity of the auxiliary data available to the attacker. Our new taxonomy provides three key insights. 1) Despite extensive literature, numerous under-explored threat spaces exist, which cannot be trivially solved by adapting techniques from well-explored settings. We demonstrate this by establishing a new state-of-the-art in the less-studied setting of access to top-k confidence scores by adapting techniques from well-explored settings of accessing the complete confidence vector, but show how it still falls short of the more restrictive setting that only obtains the prediction label, highlighting the need for more research. 2) Identification the threat model of different attacks uncovers stronger baselines that challenge prior state-of-the-art claims. We demonstrate this by enhancing an initially weaker baseline (under interactive query access) via surrogate models, effectively overturning claims in the respective paper. 3) Our taxonomy reveals interactions between attacker knowledge that connect well to related areas, such as model inversion and extraction attacks. We discuss how advances in other areas can enable potentially stronger black-box attacks. Finally, we emphasize the need for a more realistic assessment of attack success by factoring in local attack runtime. This approach reveals the potential for certain attacks to achieve notably higher success rates and the need to evaluate attacks in diverse and harder settings, highlighting the need for better selection criteria.

arxiv情報

著者 Fnu Suya,Anshuman Suri,Tingwei Zhang,Jingtao Hong,Yuan Tian,David Evans
発行日 2024-02-14 13:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク