Measuring the Effect of Causal Disentanglement on the Adversarial Robustness of Neural Network Models

要約

コーザル ニューラル ネットワーク モデルは、従来のニューラル ネットワークと比較して、敵対的攻撃に対する高レベルの堅牢性と、少数ショット学習やレア コンテキスト分類などの汎化タスクの能力の向上を示しています。
この頑健性は、因果入力信号と交絡入力信号のもつれを解くことに起因すると主張されています。
しかし、これらのタイプの因果モデルによって達成されるもつれの解消のレベルを測定したり、これが敵対的な堅牢性にどのように関連しているかを評価した定量的な研究はまだありません。
既存の因果関係解消メトリクスは、現実世界のデータセットでトレーニングされた決定論的モデルには適用できません。
したがって、私たちはコンピューター ビジョンの分野からのコンテンツ/スタイルのもつれの解き方のメトリクスを利用して、4 つの最先端の因果ニューラル ネットワーク モデルの因果の解きほぐしのさまざまな側面を測定します。
これらのモデルを共通の ResNet18 アーキテクチャで再実装することにより、7 つの一般的なホワイトボックス攻撃の下で 3 つの標準画像分類ベンチマーク データセットに対する敵対的堅牢性を正確に測定できます。
モデルが因果信号と交絡信号を非相関にする程度と、その敵対的堅牢性との間に強い関連性 (r=0.820、p=0.001) があることがわかります。
さらに、交絡因子信号のピクセルレベルの情報内容と敵対的堅牢性の間には、中程度の負の相関があることがわかります (r=-0.597、p=0.040)。

要約(オリジナル)

Causal Neural Network models have shown high levels of robustness to adversarial attacks as well as an increased capacity for generalisation tasks such as few-shot learning and rare-context classification compared to traditional Neural Networks. This robustness is argued to stem from the disentanglement of causal and confounder input signals. However, no quantitative study has yet measured the level of disentanglement achieved by these types of causal models or assessed how this relates to their adversarial robustness. Existing causal disentanglement metrics are not applicable to deterministic models trained on real-world datasets. We, therefore, utilise metrics of content/style disentanglement from the field of Computer Vision to measure different aspects of the causal disentanglement for four state-of-the-art causal Neural Network models. By re-implementing these models with a common ResNet18 architecture we are able to fairly measure their adversarial robustness on three standard image classification benchmarking datasets under seven common white-box attacks. We find a strong association (r=0.820, p=0.001) between the degree to which models decorrelate causal and confounder signals and their adversarial robustness. Additionally, we find a moderate negative association between the pixel-level information content of the confounder signal and adversarial robustness (r=-0.597, p=0.040).

arxiv情報

著者 Preben M. Ness,Dusica Marijan,Sunanda Bose
発行日 2023-08-21 13:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク