Image Hijacks: Adversarial Images can Control Generative Models at Runtime

要約

基盤モデルは悪意のある攻撃者から保護されていますか?
この研究では、ビジョン言語モデル (VLM) への画像入力に焦点を当てます。
私たちは、画像ハイジャック、つまり実行時に生成モデルを制御する敵対的な画像を発見します。
画像ハイジャックを作成するための一般的な方法である動作マッチングを紹介し、それを使用して 3 種類の攻撃を調査します。
特定の文字列攻撃は、攻撃者が選択した任意の出力を生成します。
コンテキスト漏洩攻撃は、コンテキスト ウィンドウから出力に情報を漏洩します。
脱獄攻撃はモデルの安全トレーニングを回避します。
CLIP および LLaMA-2 に基づく最先端の VLM である LLaVA に対するこれらの攻撃を調査したところ、すべての攻撃タイプの成功率が 90% 以上であることがわかりました。
さらに、私たちの攻撃は自動化されており、わずかな画像の乱れのみが必要です。
これらの発見は、基礎モデルのセキュリティについて深刻な懸念を引き起こします。
画像ハイジャックが CIFAR-10 の敵対的な例と同じくらい防御するのが難しい場合、解決策が見つかるまでには、たとえ存在するとしても、何年もかかる可能性があります。

要約(オリジナル)

Are foundation models secure from malicious actors? In this work, we focus on the image input to a vision-language model (VLM). We discover image hijacks, adversarial images that control generative models at runtime. We introduce Behaviour Matching, a general method for creating image hijacks, and we use it to explore three types of attacks. Specific string attacks generate arbitrary output of the adversary’s choice. Leak context attacks leak information from the context window into the output. Jailbreak attacks circumvent a model’s safety training. We study these attacks against LLaVA, a state-of-the-art VLM based on CLIP and LLaMA-2, and find that all our attack types have above a 90% success rate. Moreover, our attacks are automated and require only small image perturbations. These findings raise serious concerns about the security of foundation models. If image hijacks are as difficult to defend against as adversarial examples in CIFAR-10, then it might be many years before a solution is found — if it even exists.

arxiv情報

著者 Luke Bailey,Euan Ong,Stuart Russell,Scott Emmons
発行日 2023-09-18 17:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク