要約
ビジョン言語 (VL) 事前トレーニング済みモデルは、多くのマルチモーダル タスクにおいて優れていることが示されています。
ただし、そのようなモデルの敵対的堅牢性は十分に調査されていません。
既存のアプローチは主に、ホワイトボックス設定の下で敵対的な堅牢性を調査することに焦点を当てていますが、これは非現実的です。
この論文では、事前トレーニングされた VL モデルを使用して画像とテキストの摂動を作成し、さまざまな下流タスクでブラックボックスの微調整されたモデルを攻撃する、新しい実用的なタスクを調査することを目的としています。
この目的に向けて、シングルモーダル レベルとマルチモーダル レベルの両方から画像とテキストの摂動を融合することで敵対的なサンプルを生成する VLアタック を提案します。
シングルモーダルレベルでは、普遍的な表現を破壊するための画像の摂動を学習するための新しいブロックごとの類似性攻撃 (BSA) 戦略を提案します。
さらに、既存のテキスト攻撃戦略を採用して、画像モーダル攻撃とは独立してテキストの摂動を生成します。
マルチモーダル レベルでは、シングルモーダル レベルからの出力から始めて、敵対的な画像とテキストのペアを定期的に更新する新しい反復横断検索攻撃 (ICSA) 手法を設計します。
私たちは、8 つのデータセット上の 6 つのタスクに対して、広く使用されている 3 つの VL 事前トレーニング済みモデルを攻撃する広範な実験を実施しました。
実験結果は、提案された VLアタック フレームワークが、最先端のベースラインと比較してすべてのタスクで最高の攻撃成功率を達成することを示しており、これにより、事前トレーニングされた VL モデルの展開における重大な盲点が明らかになりました。
コードは近日公開予定です。
要約(オリジナル)
Vision-Language (VL) pre-trained models have shown their superiority on many multimodal tasks. However, the adversarial robustness of such models has not been fully explored. Existing approaches mainly focus on exploring the adversarial robustness under the white-box setting, which is unrealistic. In this paper, we aim to investigate a new yet practical task to craft image and text perturbations using pre-trained VL models to attack black-box fine-tuned models on different downstream tasks. Towards this end, we propose VLAttack to generate adversarial samples by fusing perturbations of images and texts from both single-modal and multimodal levels. At the single-modal level, we propose a new block-wise similarity attack (BSA) strategy to learn image perturbations for disrupting universal representations. Besides, we adopt an existing text attack strategy to generate text perturbations independent of the image-modal attack. At the multimodal level, we design a novel iterative cross-search attack (ICSA) method to update adversarial image-text pairs periodically, starting with the outputs from the single-modal level. We conduct extensive experiments to attack three widely-used VL pretrained models for six tasks on eight datasets. Experimental results show that the proposed VLAttack framework achieves the highest attack success rates on all tasks compared with state-of-the-art baselines, which reveals a significant blind spot in the deployment of pre-trained VL models. Codes will be released soon.
arxiv情報
著者 | Ziyi Yin,Muchao Ye,Tianrong Zhang,Tianyu Du,Jinguo Zhu,Han Liu,Jinghui Chen,Ting Wang,Fenglong Ma |
発行日 | 2023-11-08 16:32:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google