Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training Models

要約

ビジョン言語事前トレーニング (VLP) モデルは、マルチモーダル タスクにおける敵対的な例に対する脆弱性を示しています。
さらに、悪意のある敵が他のブラックボックス モデルを攻撃するために意図的に転送される可能性があります。
ただし、既存の研究は主にホワイトボックス攻撃の調査に焦点を当ててきました。
この論文では、最近の VLP モデルの敵対的転送可能性を調査する最初の研究を紹介します。
ホワイトボックス設定での強力な攻撃パフォーマンスと比較して、既存の手法ははるかに低い伝達性を示すことが観察されています。
転送性の低下は、クロスモーダル相互作用が十分に活用されていないことによって部分的に引き起こされます。
特に、ユニモーダル学習とは異なり、VLP モデルはクロスモーダル相互作用に大きく依存しており、マルチモーダル アライメントは多対多であり、たとえば、画像はさまざまな自然言語で記述できます。
この目的を達成するために、モダリティ相互作用を徹底的に活用し、クロスモーダル ガイダンスによるアラインメント維持の強化を組み込んだ、転送性の高いセットレベル ガイダンス攻撃 (SGA) を提案します。
実験結果は、SGA が複数の下流ビジョン言語タスクで異なる VLP モデル間で強力に転送できる敵対的な例を生成できることを示しています。
画像テキストの取得において、SGA は、最新技術と比較して、ALBEF から TCL への転送攻撃の攻撃成功率を大幅に向上させます (少なくとも 9.78%、最大 30.21%)。

要約(オリジナル)

Vision-language pre-training (VLP) models have shown vulnerability to adversarial examples in multimodal tasks. Furthermore, malicious adversaries can be deliberately transferred to attack other black-box models. However, existing work has mainly focused on investigating white-box attacks. In this paper, we present the first study to investigate the adversarial transferability of recent VLP models. We observe that existing methods exhibit much lower transferability, compared to the strong attack performance in white-box settings. The transferability degradation is partly caused by the under-utilization of cross-modal interactions. Particularly, unlike unimodal learning, VLP models rely heavily on cross-modal interactions and the multimodal alignments are many-to-many, e.g., an image can be described in various natural languages. To this end, we propose a highly transferable Set-level Guidance Attack (SGA) that thoroughly leverages modality interactions and incorporates alignment-preserving augmentation with cross-modal guidance. Experimental results demonstrate that SGA could generate adversarial examples that can strongly transfer across different VLP models on multiple downstream vision-language tasks. On image-text retrieval, SGA significantly enhances the attack success rate for transfer attacks from ALBEF to TCL by a large margin (at least 9.78% and up to 30.21%), compared to the state-of-the-art.

arxiv情報

著者 Dong Lu,Zhiqiang Wang,Teng Wang,Weili Guan,Hongchang Gao,Feng Zheng
発行日 2023-07-26 09:19:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク