Abusing Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs

要約

マルチモーダルLLMにおいて、画像や音声を間接的なプロンプトや命令注入に利用できることを実証する。攻撃者は、プロンプトに対応する敵対的な摂動を生成し、それを画像や音声に混ぜ合わせる。ユーザが(修正されていない、良性の)モデルに摂動が加えられた画像や音声について質問すると、摂動は攻撃者が選んだテキストを出力するように、あるいは後続のダイアログを攻撃者の指示に従わせるように、モデルを誘導する。LLaVaとPandaGPTをターゲットとしたいくつかの概念実証例を用いて、この攻撃を説明する。

要約(オリジナル)

We demonstrate how images and sounds can be used for indirect prompt and instruction injection in multi-modal LLMs. An attacker generates an adversarial perturbation corresponding to the prompt and blends it into an image or audio recording. When the user asks the (unmodified, benign) model about the perturbed image or audio, the perturbation steers the model to output the attacker-chosen text and/or make the subsequent dialog follow the attacker’s instruction. We illustrate this attack with several proof-of-concept examples targeting LLaVa and PandaGPT.

arxiv情報

著者 Eugene Bagdasaryan,Tsung-Yin Hsieh,Ben Nassi,Vitaly Shmatikov
発行日 2023-10-03 17:03:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク