要約
進化し続ける敵対的機械学習の状況では、パッチ攻撃に対する効果的な防御策を開発することが重要な課題となっており、現実世界の AI システムを保護するための信頼できるソリューションが必要となっています。
拡散モデルは画像合成において顕著な能力を示しており、最近では $\ell_p$-norm 限定攻撃に対抗するために利用されていますが、局所的なパッチ攻撃を軽減するその可能性は依然として十分に解明されていません。
この研究では、敵対的なパッチの除染に拡散モデルの力を利用する新しいフレームワークである DiffPAD を提案します。
DiffPAD は、まずダウンサンプリングされた入力画像に対して超解像度復元を実行し、次に二値化、動的しきい値処理スキーム、および敵対的パッチの効果的な位置特定のためのスライディング ウィンドウを採用します。
このような設計は、さまざまなパッチ攻撃シナリオにわたって一般化される、理論的に導出されたパッチ サイズと拡散復元エラー間の相関関係にインスピレーションを得ています。
最後に、DiffPAD は、推定されたパッチ領域がマスクされた元の入力画像に修復技術を適用します。
DiffPAD は、超解像度復元と画像修復のための閉じた形式のソリューションを、事前トレーニングされた拡散モデルの条件付き逆サンプリング プロセスに統合することにより、テキスト ガイダンスや微調整の必要性を排除します。
包括的な実験を通じて、DiffPAD がパッチ攻撃に対する最先端の敵対的堅牢性を実現するだけでなく、パッチの残骸のない自然な画像の回復にも優れていることを実証しました。
要約(オリジナル)
In the ever-evolving adversarial machine learning landscape, developing effective defenses against patch attacks has become a critical challenge, necessitating reliable solutions to safeguard real-world AI systems. Although diffusion models have shown remarkable capacity in image synthesis and have been recently utilized to counter $\ell_p$-norm bounded attacks, their potential in mitigating localized patch attacks remains largely underexplored. In this work, we propose DiffPAD, a novel framework that harnesses the power of diffusion models for adversarial patch decontamination. DiffPAD first performs super-resolution restoration on downsampled input images, then adopts binarization, dynamic thresholding scheme and sliding window for effective localization of adversarial patches. Such a design is inspired by the theoretically derived correlation between patch size and diffusion restoration error that is generalized across diverse patch attack scenarios. Finally, DiffPAD applies inpainting techniques to the original input images with the estimated patch region being masked. By integrating closed-form solutions for super-resolution restoration and image inpainting into the conditional reverse sampling process of a pre-trained diffusion model, DiffPAD obviates the need for text guidance or fine-tuning. Through comprehensive experiments, we demonstrate that DiffPAD not only achieves state-of-the-art adversarial robustness against patch attacks but also excels in recovering naturalistic images without patch remnants.
arxiv情報
著者 | Jia Fu,Xiao Zhang,Sepideh Pashami,Fatemeh Rahimian,Anders Holst |
発行日 | 2024-10-31 15:09:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google