SEA: Shareable and Explainable Attribution for Query-based Black-box Attacks

要約

機械学習(ML)システムは、特にクエリベースのブラックボックス攻撃による敵対例に対して脆弱です。
このような攻撃を検出および防止するさまざまな努力にもかかわらず、MLシステムは依然として危険にさらされており、証拠の記録、分析、共有を含むセキュリティに対するより包括的なアプローチを要求しています。
フォレンジックと脅威インテリジェンス共有の確立された実践からの従来のセキュリティの利益は、MLセキュリティでは、攻撃者をプロファイルしてそれらに関する情報を共有する方法をまだ見つけていません。
これに応じて、このペーパーでは、法医学目的のためにMLシステムに対するブラックボックス攻撃を特徴付ける新しいMLセキュリティシステムであるSeaを紹介し、人間と実現可能なインテリジェンス共有を促進します。
Sea Leverages Hidden Markovモデルは、観測されたクエリシーケンスを既知の攻撃に帰属させます。
したがって、最終的な敵対的な例だけに焦点を当てるのではなく、攻撃の進行を理解しています。
私たちの評価は、Seaが2番目の事件であっても、攻撃の帰属に効果的であり、法医学分析を回避するために設計された適応戦略に堅牢であることを明らかにしています。
Seaの攻撃の動作に関する説明により、広く使用されている攻撃ライブラリで特定のマイナーバグを指紋することさえできます。
たとえば、アートv1.14のシグノートとスクエアの攻撃が50%以上の重複したクエリを送信することがわかります。
さまざまな設定でSeaを徹底的に評価し、90%を超えるTOP-1および95%のトップ3の精度で同じ攻撃を認識できることを実証します。
最後に、テキスト分類のような他のドメインにSeaがどのように一般化するかを示します。

要約(オリジナル)

Machine Learning (ML) systems are vulnerable to adversarial examples, particularly those from query-based black-box attacks. Despite various efforts to detect and prevent such attacks, ML systems are still at risk, demanding a more comprehensive approach to security that includes logging, analyzing, and sharing evidence. While traditional security benefits from well-established practices of forensics and threat intelligence sharing, ML security has yet to find a way to profile its attackers and share information about them. In response, this paper introduces SEA, a novel ML security system to characterize black-box attacks on ML systems for forensic purposes and to facilitate human-explainable intelligence sharing. SEA leverages Hidden Markov Models to attribute the observed query sequence to known attacks. It thus understands the attack’s progression rather than focusing solely on the final adversarial examples. Our evaluations reveal that SEA is effective at attack attribution, even on the second incident, and is robust to adaptive strategies designed to evade forensic analysis. SEA’s explanations of the attack’s behavior allow us even to fingerprint specific minor bugs in widely used attack libraries. For example, we discover that the SignOPT and Square attacks in ART v1.14 send over 50% duplicated queries. We thoroughly evaluate SEA on a variety of settings and demonstrate that it can recognize the same attack with more than 90% Top-1 and 95% Top-3 accuracy. Finally, we demonstrate how SEA generalizes to other domains like text classification.

arxiv情報

著者 Yue Gao,Ilia Shumailov,Kassem Fawaz
発行日 2025-02-20 17:04:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク