AnyAttack: Targeted Adversarial Attacks on Vision-Language Models toward Any Images

要約

ビジョン言語モデル (VLM) は、そのマルチモーダルな機能により、現実世界のシナリオで多数の影響力のあるアプリケーションが発見されています。
しかし、最近の研究では、VLM は画像ベースの敵対的攻撃、特にモデルを操作して敵対者が指定した有害なコンテンツを生成する標的型敵対的画像に対して脆弱であることが明らかになりました。
現在の攻撃手法は、事前に定義されたターゲット ラベルに依存して標的を絞った敵対的攻撃を作成するため、大規模な堅牢性評価に対する拡張性と適用性が制限されています。
この論文では、ラベル監視なしで VLM の対象を絞った敵対的イメージを生成し、任意のイメージを攻撃のターゲットとして機能させる自己監視型フレームワークである Any Attack を提案します。
私たちのフレームワークは、事前トレーニングと微調整パラダイムを採用しており、大規模な LAION-400M データセットで事前トレーニングされた敵対的ノイズ ジェネレーターを備えています。
この大規模な事前トレーニングにより、私たちのメソッドはさまざまな VLM に強力に移行できるようになります。
5 つの主流オープンソース VLM (CLIP、BLIP、BLIP2、InstructBLIP、MiniGPT-4) での 3 つのマルチモーダル タスク (画像テキスト検索、マルチモーダル分類、画像キャプション) にわたる広範な実験により、攻撃の有効性が実証されました。
さらに、Google Gemini、Claude Sonnet、Microsoft Copilot、OpenAI GPT を含む複数の商用 VLM への Any Attack の転送に成功しました。
これらの結果は、VLM に対する前例のないリスクを明らかにし、効果的な対策の必要性を浮き彫りにしています。

要約(オリジナル)

Due to their multimodal capabilities, Vision-Language Models (VLMs) have found numerous impactful applications in real-world scenarios. However, recent studies have revealed that VLMs are vulnerable to image-based adversarial attacks, particularly targeted adversarial images that manipulate the model to generate harmful content specified by the adversary. Current attack methods rely on predefined target labels to create targeted adversarial attacks, which limits their scalability and applicability for large-scale robustness evaluations. In this paper, we propose AnyAttack, a self-supervised framework that generates targeted adversarial images for VLMs without label supervision, allowing any image to serve as a target for the attack. Our framework employs the pre-training and fine-tuning paradigm, with the adversarial noise generator pre-trained on the large-scale LAION-400M dataset. This large-scale pre-training endows our method with powerful transferability across a wide range of VLMs. Extensive experiments on five mainstream open-source VLMs (CLIP, BLIP, BLIP2, InstructBLIP, and MiniGPT-4) across three multimodal tasks (image-text retrieval, multimodal classification, and image captioning) demonstrate the effectiveness of our attack. Additionally, we successfully transfer AnyAttack to multiple commercial VLMs, including Google Gemini, Claude Sonnet, Microsoft Copilot and OpenAI GPT. These results reveal an unprecedented risk to VLMs, highlighting the need for effective countermeasures.

arxiv情報

著者 Jiaming Zhang,Junhong Ye,Xingjun Ma,Yige Li,Yunfan Yang,Jitao Sang,Dit-Yan Yeung
発行日 2024-12-17 15:32:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク