要約
この研究では、高い攻撃成功率 (\textbf{ASR}) と優れた汎用性を備えた、効率的なスコアベースのブラックボックス攻撃を調査しています。
私たちは、\textbf{Dif Attack++} と呼ばれる階層的な DISentangled 特徴空間に基づいた新しい攻撃方法を設計します。これは、特徴空間全体で動作する既存の攻撃方法とは大きく異なります。
具体的には、Dif Attack++ はまず、特別に設計された階層的分離融合 (\textbf{HDF}) を備えたオートエンコーダーを介して、画像の潜在的特徴を敵対的特徴 (\textbf{AF}) と視覚的特徴 (\textbf{VF}) に分解します。
このモジュールでは、AF が画像の敵対能力を支配し、VF が主に画像の外観を決定します。
このような 2 つのオートエンコーダをクリーン画像ドメインと敵対的画像ドメイン (つまり、クロスドメイン) に対してそれぞれトレーニングし、クリーンな画像のペアと利用可能なサロゲートから生成された敵対的サンプル (\textbf{AE}) を使用して、画像の再構成と特徴のもつれの解消を実現します。
ホワイトボックス攻撃手法によるモデル化。
最終的に、ブラックボックス攻撃の段階では、Dif Attack++ は、VF を変更しないまま、成功した AE が生成されるまで、被害者モデルからのクエリ フィードバックに従って AF を繰り返し最適化します。
広範な実験結果は、当社の Dif Attack++ が最先端の方法よりも優れた ASR およびクエリ効率をもたらし、同時に AE の視覚的な品質がはるかに優れていることを示しています。
コードは https://github.com/csjunjun/Dif Attack.git で入手できます。
要約(オリジナル)
This work investigates efficient score-based black-box adversarial attacks with a high Attack Success Rate (\textbf{ASR}) and good generalizability. We design a novel attack method based on a hierarchical DIsentangled Feature space, called \textbf{DifAttack++}, which differs significantly from the existing ones operating over the entire feature space. Specifically, DifAttack++ firstly disentangles an image’s latent feature into an Adversarial Feature (\textbf{AF}) and a Visual Feature (\textbf{VF}) via an autoencoder equipped with our specially designed Hierarchical Decouple-Fusion (\textbf{HDF}) module, where the AF dominates the adversarial capability of an image, while the VF largely determines its visual appearance. We train such two autoencoders for the clean and adversarial image domains (i.e., cross-domain) respectively to achieve image reconstructions and feature disentanglement, by using pairs of clean images and their Adversarial Examples (\textbf{AE}s) generated from available surrogate models via white-box attack methods. Eventually, in the black-box attack stage, DifAttack++ iteratively optimizes the AF according to the query feedback from the victim model until a successful AE is generated, while keeping the VF unaltered. Extensive experimental results demonstrate that our DifAttack++ leads to superior ASR and query efficiency than state-of-the-art methods, meanwhile exhibiting much better visual quality of AEs. The code is available at https://github.com/csjunjun/DifAttack.git.
arxiv情報
著者 | Jun Liu,Jiantao Zhou,Jiandian Zeng,Jinyu Tian,Zheng Li |
発行日 | 2024-07-01 04:36:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google