PatchCensor: Patch Robustness Certification for Transformers via Exhaustive Testing

要約

タイトル: PatchCensor:徹底的なテストによるトランスフォーマーのパッチ強度認証
要約:
– Vision Transformer(ViT)は、他の古典的なニューラルネットワークと同様に高度に非線形であり、自然的および攻撃的なパッチの摂動により簡単に騙されることが知られています。
– この制限は、特に安全性が重要なシナリオである実際の産業環境でのViTの導入に潜在的な脅威をもたらす可能性があります。
– この課題に対処するために、PatchCensorを提案し、徹底的なテストを適用して、ViTのパッチ強度を認証することを目的としています。最悪のパッチ攻撃シナリオを考慮して、証明可能な保証を提供することを目指しています。
– 通常、認証された堅牢性は、堅牢なトレーニングに基づいています。PatchCensorは、堅牢なモデルをトレーニングする代わりに異常な入力を検出することで、システム全体の堅牢性を向上させることを目指しています。各入力は、異なる変異型注視マスクによる複数の推論に投票してテストされ、少なくとも1つの推論が異常なパッチを除外することが保証されます。
– PatchCensorは、2%ピクセルの攻撃的パッチに対してImageNetで67.1%の高い保証された正確性を達成し、最先端の技術を大幅に上回り、同様のクリーンな正確性(ImageNetで81.8%)を維持しながら、柔軟な設定もサポートします(最大25%の攻撃的パッチ)。

要約(オリジナル)

Vision Transformer (ViT) is known to be highly nonlinear like other classical neural networks and could be easily fooled by both natural and adversarial patch perturbations. This limitation could pose a threat to the deployment of ViT in the real industrial environment, especially in safety-critical scenarios. In this work, we propose PatchCensor, aiming to certify the patch robustness of ViT by applying exhaustive testing. We try to provide a provable guarantee by considering the worst patch attack scenarios. Unlike empirical defenses against adversarial patches that may be adaptively breached, certified robust approaches can provide a certified accuracy against arbitrary attacks under certain conditions. However, existing robustness certifications are mostly based on robust training, which often requires substantial training efforts and the sacrifice of model performance on normal samples. To bridge the gap, PatchCensor seeks to improve the robustness of the whole system by detecting abnormal inputs instead of training a robust model and asking it to give reliable results for every input, which may inevitably compromise accuracy. Specifically, each input is tested by voting over multiple inferences with different mutated attention masks, where at least one inference is guaranteed to exclude the abnormal patch. This can be seen as complete-coverage testing, which could provide a statistical guarantee on inference at the test time. Our comprehensive evaluation demonstrates that PatchCensor is able to achieve high certified accuracy (e.g. 67.1% on ImageNet for 2%-pixel adversarial patches), significantly outperforming state-of-the-art techniques while achieving similar clean accuracy (81.8% on ImageNet). Meanwhile, our technique also supports flexible configurations to handle different adversarial patch sizes (up to 25%) by simply changing the masking strategy.

arxiv情報

著者 Yuheng Huang,Lei Ma,Yuanchun Li
発行日 2023-04-05 05:21:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CR, cs.CV パーマリンク