LoRID: Low-Rank Iterative Diffusion for Adversarial Purification

要約

この研究は、拡散ベースの浄化方法、つまり拡散モデルを利用して敵対的な例における悪意のある摂動を除去する最先端の敵対的防御の情報理論的検討を提示します。
マルコフベースの拡散精製に関連する固有の精製誤差を理論的に特徴付けることにより、低い固有の精製誤差で敵対的摂動を除去するように設計された新しい低ランク反復拡散精製法である LoRID を紹介します。
LoRID は、拡散モデルの初期タイムステップで複数ラウンドの拡散ノイズ除去ループを活用する多段階浄化プロセスと、高ノイズで敵対的なノイズを除去するための行列分解の拡張であるタッカー分解の統合を中心としています。
体制。
その結果、LoRID は効果的な拡散タイムステップを増加させ、強力な敵対的攻撃を克服し、ホワイト ボックス設定とブラック ボックス設定の両方で CIFAR-10/100、CelebA-HQ、および ImageNet データセットで優れた堅牢性パフォーマンスを実現します。

要約(オリジナル)

This work presents an information-theoretic examination of diffusion-based purification methods, the state-of-the-art adversarial defenses that utilize diffusion models to remove malicious perturbations in adversarial examples. By theoretically characterizing the inherent purification errors associated with the Markov-based diffusion purifications, we introduce LoRID, a novel Low-Rank Iterative Diffusion purification method designed to remove adversarial perturbation with low intrinsic purification errors. LoRID centers around a multi-stage purification process that leverages multiple rounds of diffusion-denoising loops at the early time-steps of the diffusion models, and the integration of Tucker decomposition, an extension of matrix factorization, to remove adversarial noise at high-noise regimes. Consequently, LoRID increases the effective diffusion time-steps and overcomes strong adversarial attacks, achieving superior robustness performance in CIFAR-10/100, CelebA-HQ, and ImageNet datasets under both white-box and black-box settings.

arxiv情報

著者 Geigh Zollicoffer,Minh Vu,Ben Nebgen,Juan Castorena,Boian Alexandrov,Manish Bhattarai
発行日 2024-09-12 17:51:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク