Gradient-based Jailbreak Images for Multimodal Fusion Models

要約

言語モデルを画像入力で補強することで、離散的な最適化を必要とするテキスト入力とは異なり、連続的な最適化によってより効果的な脱獄攻撃が可能になる可能性がある。しかし、新しいマルチモーダル融合モデルは、すべての入力モダリティを微分不可能な関数を用いてトークン化するため、直接的な攻撃の妨げとなる。本研究では、連続関数でトークン化を近似し、連続最適化を可能にするトークナイザーショートカットの概念を導入する。このトークナイザーショートカットを用いて、マルチモーダル融合モデルに対する初のエンドツーエンドの勾配画像攻撃を作成する。Chameleonモデルに対する我々の攻撃を評価し、72.5%のプロンプトに対して有害な情報を引き出す脱獄画像を得る。脱獄画像は、同じ目的で最適化されたテキスト脱獄よりも優れており、50倍多くの入力トークンを最適化するために3倍低い計算予算で済む。最後に、テキスト攻撃に対してのみ訓練されたCircuit Breakersのような表現工学的防御が、敵対的な画像入力に効果的に移行できることを発見した。

要約(オリジナル)

Augmenting language models with image inputs may enable more effective jailbreak attacks through continuous optimization, unlike text inputs that require discrete optimization. However, new multimodal fusion models tokenize all input modalities using non-differentiable functions, which hinders straightforward attacks. In this work, we introduce the notion of a tokenizer shortcut that approximates tokenization with a continuous function and enables continuous optimization. We use tokenizer shortcuts to create the first end-to-end gradient image attacks against multimodal fusion models. We evaluate our attacks on Chameleon models and obtain jailbreak images that elicit harmful information for 72.5% of prompts. Jailbreak images outperform text jailbreaks optimized with the same objective and require 3x lower compute budget to optimize 50x more input tokens. Finally, we find that representation engineering defenses, like Circuit Breakers, trained only on text attacks can effectively transfer to adversarial image inputs.

arxiv情報

著者 Javier Rando,Hannah Korevaar,Erik Brinkman,Ivan Evtimov,Florian Tramèr
発行日 2024-10-04 14:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR パーマリンク