A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns

要約

大規模な言語モデルの開発により、さまざまな分野でエージェントとして広く使用されています。
エージェントの重要なコンポーネントはメモリです。メモリには重要な情報が保存されますが、ジェイルブレイク攻撃を受けやすいです。
既存の研究は主にシングルエージェント攻撃と共有メモリ攻撃に焦点を当てています。
ただし、現実世界のシナリオでは、多くの場合、独立したメモリが必要になります。
このペーパーでは、大規模なマルチエージェント、マルチトポロジのテキストベースの攻撃評価フレームワークである Troublemaker Makes Chaos in Honest Town (TMCHT) タスクを提案します。
TMCHT には、エージェント社会全体を誤解させようとする 1 人の攻撃者エージェントが関与します。
マルチエージェント攻撃における 2 つの主要な課題を特定します。(1) 不完全なグラフ構造、(2) 大規模システム。
これらの課題は、毒性の消失と呼ばれる現象によるものであると考えられます。
これらの問題に対処するために、我々は、有害なサンプルをより容易に取得できるように取得サフィックスを最適化し、汚染されたサンプルに伝染性を持たせるためにレプリケーションサフィックスを最適化する、Adversarial Replication Contagious Jailbreak (ARCJ) 手法を提案します。
TMCHT におけるアプローチの優位性を実証し、ライン トポロジ、スター トポロジ、および 100 エージェント設定で 23.51%、18.95%、および 52.93% の改善が見られました。
マルチエージェント システムのセキュリティに対するコミュニティの注目を奨励します。

要約(オリジナル)

With the development of large language models, they are widely used as agents in various fields. A key component of agents is memory, which stores vital information but is susceptible to jailbreak attacks. Existing research mainly focuses on single-agent attacks and shared memory attacks. However, real-world scenarios often involve independent memory. In this paper, we propose the Troublemaker Makes Chaos in Honest Town (TMCHT) task, a large-scale, multi-agent, multi-topology text-based attack evaluation framework. TMCHT involves one attacker agent attempting to mislead an entire society of agents. We identify two major challenges in multi-agent attacks: (1) Non-complete graph structure, (2) Large-scale systems. We attribute these challenges to a phenomenon we term toxicity disappearing. To address these issues, we propose an Adversarial Replication Contagious Jailbreak (ARCJ) method, which optimizes the retrieval suffix to make poisoned samples more easily retrieved and optimizes the replication suffix to make poisoned samples have contagious ability. We demonstrate the superiority of our approach in TMCHT, with 23.51%, 18.95%, and 52.93% improvements in line topology, star topology, and 100-agent settings. Encourage community attention to the security of multi-agent systems.

arxiv情報

著者 Tianyi Men,Pengfei Cao,Zhuoran Jin,Yubo Chen,Kang Liu,Jun Zhao
発行日 2024-10-21 16:21:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク