要約
神経分類器を敵対的攻撃から守るための継続的な努力にもかかわらず、それらは、特に目に見えない攻撃に対して脆弱なままです。
対照的に、私たちは本質的な要因に基づいて判断を下すため、人間は微妙な操作によってだまされることは困難です。
この観察に触発されて、私たちはレーベル生成を本質的にラベルと音響的要因でモデル化し、データ生成を支援するためにラベルなしの因果要因を組み込みます。
敵対的な例については、摂動を非呼吸因子として区別し、ラベルの因果要因に基づいてのみ予測を行うことを目指しています。
具体的には、条件付きデータ生成に拡散モデルを適応させるカジュアルな拡散モデル(Causaldiff)を提案し、新しいカジュアルな情報ボトルネックの目的に向けて学習することにより、2種類のカジュアルな要因を解き放つことを提案します。
経験的に、Causaldiffは、さまざまな目に見えない攻撃で最先端の防衛方法を大幅に上回っており、CIFAR-10で86.39%(+4.01%)の平均堅牢性を達成し、CIFAR-100で56.25%(+3.13%)、およびCIFAR-100で達成しました。
GTSRBの82.62%(+4.93%)(ドイツの交通標識認識ベンチマーク)。
このコードは、https://github.com/cas-aisafetybasicresearchgroup/causaldiffで入手できます。
要約(オリジナル)
Despite ongoing efforts to defend neural classifiers from adversarial attacks, they remain vulnerable, especially to unseen attacks. In contrast, humans are difficult to be cheated by subtle manipulations, since we make judgments only based on essential factors. Inspired by this observation, we attempt to model label generation with essential label-causative factors and incorporate label-non-causative factors to assist data generation. For an adversarial example, we aim to discriminate the perturbations as non-causative factors and make predictions only based on the label-causative factors. Concretely, we propose a casual diffusion model (CausalDiff) that adapts diffusion models for conditional data generation and disentangles the two types of casual factors by learning towards a novel casual information bottleneck objective. Empirically, CausalDiff has significantly outperformed state-of-the-art defense methods on various unseen attacks, achieving an average robustness of 86.39% (+4.01%) on CIFAR-10, 56.25% (+3.13%) on CIFAR-100, and 82.62% (+4.93%) on GTSRB (German Traffic Sign Recognition Benchmark). The code is available at https://github.com/CAS-AISafetyBasicResearchGroup/CausalDiff.
arxiv情報
著者 | Mingkun Zhang,Keping Bi,Wei Chen,Quanrun Chen,Jiafeng Guo,Xueqi Cheng |
発行日 | 2025-02-25 12:32:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google