Where and How to Attack? A Causality-Inspired Recipe for Generating Counterfactual Adversarial Examples

要約

ディープ ニューラル ネットワーク (DNN) は、よく考えられた $\mathcal{L}_p$-norm 制限付き攻撃または制限なし攻撃によって生成される、巧妙に作成された \emph{敵対的な例} に対して脆弱であることが実証されています。
それにもかかわらず、これらのアプローチの大部分は、攻撃者が任意の機能を自由に変更できることを前提としており、データの因果関係を生成するプロセスを無視していますが、これは不合理で非現実的です。
たとえば、収入が変化すると、銀行システム内の負債と収入の比率などの機能に必然的に影響が及びます。
過小評価されている因果生成プロセスを考慮することで、まず因果関係のレンズを通して DNN の脆弱性の原因を特定し、次に \emph{どこを攻撃するか} に答える理論的な結果を与えます。
第二に、より現実的な敵対的な例を生成するためにサンプルの現状に対する攻撃介入の影響を考慮して、\textbf{C}非現実的な \textbf{AD} 対逆 \textbf{E} サンプルを生成できるフレームワークである CADE を提案します。
\emph{攻撃方法}に答える。
実証結果は、ホワイトボックス攻撃、転送ベース攻撃、ランダム介入攻撃など、さまざまな攻撃シナリオにわたる CADE の競合パフォーマンスによって証明されるように、CADE の有効性を示しています。

要約(オリジナル)

Deep neural networks (DNNs) have been demonstrated to be vulnerable to well-crafted \emph{adversarial examples}, which are generated through either well-conceived $\mathcal{L}_p$-norm restricted or unrestricted attacks. Nevertheless, the majority of those approaches assume that adversaries can modify any features as they wish, and neglect the causal generating process of the data, which is unreasonable and unpractical. For instance, a modification in income would inevitably impact features like the debt-to-income ratio within a banking system. By considering the underappreciated causal generating process, first, we pinpoint the source of the vulnerability of DNNs via the lens of causality, then give theoretical results to answer \emph{where to attack}. Second, considering the consequences of the attack interventions on the current state of the examples to generate more realistic adversarial examples, we propose CADE, a framework that can generate \textbf{C}ounterfactual \textbf{AD}versarial \textbf{E}xamples to answer \emph{how to attack}. The empirical results demonstrate CADE’s effectiveness, as evidenced by its competitive performance across diverse attack scenarios, including white-box, transfer-based, and random intervention attacks.

arxiv情報

著者 Ruichu Cai,Yuxuan Zhu,Jie Qiao,Zefeng Liang,Furui Liu,Zhifeng Hao
発行日 2024-01-26 11:33:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク