(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs

要約

マルチモーダル LLM での間接的なプロンプトと命令の挿入に画像と音声を使用する方法を示します。
攻撃者は、プロンプトに対応する敵対的な摂動を生成し、それを画像または音声記録に混ぜ込みます。
ユーザーが摂動された画像または音声について (修正されていない無害な) モデルに質問すると、摂動はモデルを操作して、攻撃者が選択したテキストを出力したり、後続のダイアログを攻撃者の指示に従わせたりします。
LLaVa と PandaGPT をターゲットとしたいくつかの概念実証の例を使用して、この攻撃を説明します。

要約(オリジナル)

We demonstrate how images and sounds can be used for indirect prompt and instruction injection in multi-modal LLMs. An attacker generates an adversarial perturbation corresponding to the prompt and blends it into an image or audio recording. When the user asks the (unmodified, benign) model about the perturbed image or audio, the perturbation steers the model to output the attacker-chosen text and/or make the subsequent dialog follow the attacker’s instruction. We illustrate this attack with several proof-of-concept examples targeting LLaVa and PandaGPT.

arxiv情報

著者 Eugene Bagdasaryan,Tsung-Yin Hsieh,Ben Nassi,Vitaly Shmatikov
発行日 2023-07-21 16:51:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク