要約
基礎モデルは悪意あるアクターから安全か?この研究では、視覚言語モデル(VLM)への画像入力に焦点を当てる。我々は、実行時に生成モデルを制御する敵対的画像である画像ハイジャックを発見する。画像ハイジャックを作成するための一般的な方法である振る舞いマッチングを紹介し、それを用いて3種類の攻撃を探索する。特定の文字列攻撃は、敵が選択した任意の出力を生成する。リーク・コンテキスト攻撃は、コンテキスト・ウィンドウの情報を出力にリークする。脱獄攻撃はモデルの安全訓練を回避する。CLIPとLLaMA-2に基づく最先端のVLMであるLLaVA-2に対するこれらの攻撃を研究し、我々の全ての攻撃タイプが90%以上の成功率を持つことを発見した。さらに、我々の攻撃は自動化されており、わずかな画像の摂動しか必要としない。これらの結果は、基礎モデルの安全性について重大な懸念を提起するものである。もし画像ハイジャックがCIFAR-10の敵対的な例のように防御が困難であれば、解決策が見つかるまでに何年もかかるかもしれません。
要約(オリジナル)
Are foundation models secure from malicious actors? In this work, we focus on the image input to a vision-language model (VLM). We discover image hijacks, adversarial images that control generative models at runtime. We introduce Behavior Matching, a general method for creating image hijacks, and we use it to explore three types of attacks. Specific string attacks generate arbitrary output of the adversary’s choosing. Leak context attacks leak information from the context window into the output. Jailbreak attacks circumvent a model’s safety training. We study these attacks against LLaVA-2, a state-of-the-art VLM based on CLIP and LLaMA-2, and find that all our attack types have above a 90\% success rate. Moreover, our attacks are automated and require only small image perturbations. These findings raise serious concerns about the security of foundation models. If image hijacks are as difficult to defend against as adversarial examples in CIFAR-10, then it might be many years before a solution is found — if it even exists.
arxiv情報
著者 | Luke Bailey,Euan Ong,Stuart Russell,Scott Emmons |
発行日 | 2023-09-01 03:53:40+00:00 |
arxivサイト | arxiv_id(pdf) |