Sparse vs Contiguous Adversarial Pixel Perturbations in Multimodal Models: An Empirical Analysis

要約

敵対的な例に対するマルチモーダル モデルの堅牢性を評価することは、ユーザーの安全にとって重要な側面です。
前処理された入力画像に対して L0 ノルム摂動攻撃を作成します。
ターゲットを絞った誤分類とターゲットを絞らない誤分類の両方を考慮して、4 つのマルチモーダル モデルと 2 つのユニモーダル DNN に対してブラック ボックス セットアップでそれらを起動します。
私たちの攻撃は、摂動された画像領域の 0.04% 未満をターゲットにしており、摂動されたピクセルのさまざまな空間配置、つまり、まばらな配置と、異なる連続した形状 (行、列、対角線、およびパッチ) で配置されたピクセルを統合します。
私たちの知る限り、私たちは 3 つの最先端のマルチモーダル モデル (ALIGN、AltCLIP、GroupViT) の、さまざまな疎および連続ピクセル分布の摂動に対する堅牢性を評価した最初の企業です。
得られた結果は、単峰性 DNN が多峰性モデルよりも堅牢であることを示しています。
さらに、CNN ベースの画像エンコーダを使用したモデルは、ViT を使用したモデルよりも脆弱です。ターゲットを絞らない攻撃の場合、画像領域の 0.02% 未満を混乱させるだけで 99% の成功率が得られます。

要約(オリジナル)

Assessing the robustness of multimodal models against adversarial examples is an important aspect for the safety of its users. We craft L0-norm perturbation attacks on the preprocessed input images. We launch them in a black-box setup against four multimodal models and two unimodal DNNs, considering both targeted and untargeted misclassification. Our attacks target less than 0.04% of perturbed image area and integrate different spatial positioning of perturbed pixels: sparse positioning and pixels arranged in different contiguous shapes (row, column, diagonal, and patch). To the best of our knowledge, we are the first to assess the robustness of three state-of-the-art multimodal models (ALIGN, AltCLIP, GroupViT) against different sparse and contiguous pixel distribution perturbations. The obtained results indicate that unimodal DNNs are more robust than multimodal models. Furthermore, models using CNN-based Image Encoder are more vulnerable than models with ViT – for untargeted attacks, we obtain a 99% success rate by perturbing less than 0.02% of the image area.

arxiv情報

著者 Cristian-Alexandru Botocan,Raphael Meier,Ljiljana Dolamic
発行日 2024-07-25 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG, I.2.0 パーマリンク