要約
マルチモーダル大規模言語モデル(MLLM)エージェントは、指示を受け取り、画像をキャプチャし、メモリから履歴を取得し、どのツールを使用するかを決定することができる。それにもかかわらず、敵対的な画像/プロンプトがMLLMを脱獄させ、整合性のない行動を引き起こす可能性があることが、レッドチームの努力によって明らかにされている。本研究では、感染型脱獄と呼ばれる、マルチエージェント環境におけるさらに深刻な安全性の問題を報告する。これは、敵対者が単純に1つのエージェントを脱獄させ、敵対者がそれ以上介入することなく、(ほぼ)全てのエージェントが指数関数的な速さで感染し、有害な振る舞いを示すというものである。感染型ジェイルブレイクの実現可能性を検証するために、我々は最大100万のLLaVA-1.5エージェントを含むマルチエージェント環境をシミュレートし、マルチエージェント相互作用の概念実証インスタンス化としてランダム化ペアワイズチャットを採用した。我々の結果は、ランダムに選ばれたエージェントのメモリに(感染性の)敵対的なイメージを送り込むことが、感染性の脱獄を達成するのに十分であることを示している。最後に、我々は、防御メカニズムが感染性脱獄の広がりを証明可能に抑制できるかどうかを決定するための単純な原理を導出するが、どのようにこの原理を満たす実用的な防御を設計するかは、調査するための未解決の問題のままである。我々のプロジェクトページはhttps://sail-sg.github.io/Agent-Smith/。
要約(オリジナル)
A multimodal large language model (MLLM) agent can receive instructions, capture images, retrieve histories from memory, and decide which tools to use. Nonetheless, red-teaming efforts have revealed that adversarial images/prompts can jailbreak an MLLM and cause unaligned behaviors. In this work, we report an even more severe safety issue in multi-agent environments, referred to as infectious jailbreak. It entails the adversary simply jailbreaking a single agent, and without any further intervention from the adversary, (almost) all agents will become infected exponentially fast and exhibit harmful behaviors. To validate the feasibility of infectious jailbreak, we simulate multi-agent environments containing up to one million LLaVA-1.5 agents, and employ randomized pair-wise chat as a proof-of-concept instantiation for multi-agent interaction. Our results show that feeding an (infectious) adversarial image into the memory of any randomly chosen agent is sufficient to achieve infectious jailbreak. Finally, we derive a simple principle for determining whether a defense mechanism can provably restrain the spread of infectious jailbreak, but how to design a practical defense that meets this principle remains an open question to investigate. Our project page is available at https://sail-sg.github.io/Agent-Smith/.
arxiv情報
著者 | Xiangming Gu,Xiaosen Zheng,Tianyu Pang,Chao Du,Qian Liu,Ye Wang,Jing Jiang,Min Lin |
発行日 | 2024-06-03 14:15:03+00:00 |
arxivサイト | arxiv_id(pdf) |