Shadowcast: Stealthy Data Poisoning Attacks Against Vision-Language Models

要約

視覚言語モデル (VLM) は、視覚入力からテキスト応答を生成することに優れていますが、その汎用性によりセキュリティ上の懸念が生じます。
この調査は、無害な日常的なプロンプトに対する応答を操作できるデータ ポイズニング攻撃に対する VLM の脆弱性を明らかにする第一歩となります。
シャドウキャストは、有害なサンプルと、テキストが一致する無害な画像とを視覚的に区別できない、ステルスなデータ ポイズニング攻撃です。
Shadowcast は 2 つの攻撃タイプで効果を発揮します。
1 つ目は従来のラベル攻撃で、VLM をだましてクラス ラベルを誤認させます (ドナルド トランプとジョー バイデンを混同するなど)。
2 つ目は斬新な説得攻撃で、VLM のテキスト生成機能を利用して、ジャンク フードを健​​康的であるかのように描写するなど、誤った情報に対して説得力のある一見合理的な物語を作成します。
Shadowcast がわずか 50 個の毒サンプルを使用して攻撃者の意図を効果的に達成することを示します。
重要なのは、汚染されたサンプルは異なる VLM アーキテクチャ間での移行可能性を示しており、ブラック ボックス設定では重大な懸念を引き起こしています。
さらに、Shadowcast は、さまざまなテキスト プロンプト、トレーニング データの拡張、および画像圧縮技術を含む現実的な条件下でも強力なままです。
この研究は、汚染された VLM がどのように説得力があるが欺瞞的な誤った情報を日常の良性ユーザーに広めることができるかを明らかにし、責任ある VLM 展開におけるデータ整合性の重要性を強調しています。
私たちのコードは https://github.com/umd-huang-lab/VLM-Poisoning から入手できます。

要約(オリジナル)

Vision-Language Models (VLMs) excel in generating textual responses from visual inputs, but their versatility raises security concerns. This study takes the first step in exposing VLMs’ susceptibility to data poisoning attacks that can manipulate responses to innocuous, everyday prompts. We introduce Shadowcast, a stealthy data poisoning attack where poison samples are visually indistinguishable from benign images with matching texts. Shadowcast demonstrates effectiveness in two attack types. The first is a traditional Label Attack, tricking VLMs into misidentifying class labels, such as confusing Donald Trump for Joe Biden. The second is a novel Persuasion Attack, leveraging VLMs’ text generation capabilities to craft persuasive and seemingly rational narratives for misinformation, such as portraying junk food as healthy. We show that Shadowcast effectively achieves the attacker’s intentions using as few as 50 poison samples. Crucially, the poisoned samples demonstrate transferability across different VLM architectures, posing a significant concern in black-box settings. Moreover, Shadowcast remains potent under realistic conditions involving various text prompts, training data augmentation, and image compression techniques. This work reveals how poisoned VLMs can disseminate convincing yet deceptive misinformation to everyday, benign users, emphasizing the importance of data integrity for responsible VLM deployments. Our code is available at: https://github.com/umd-huang-lab/VLM-Poisoning.

arxiv情報

著者 Yuancheng Xu,Jiarui Yao,Manli Shu,Yanchao Sun,Zichu Wu,Ning Yu,Tom Goldstein,Furong Huang
発行日 2024-10-14 16:17:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク