Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities

要約

マルチエージェント システムにおける大規模言語モデル (LLM) の急速な導入により、協調的な問題解決や自律的なネゴシエーションなど、さまざまなアプリケーションにおける LLM の優れた機能が浮き彫りになりました。
ただし、これらの LLM ベースのマルチエージェント システムのセキュリティへの影響、特に操作された知識の拡散に関しては、十分に調査されていません。
このペーパーでは、詳細な脅威モデルと、信頼できるプラットフォームで現実世界のマルチエージェント展開を反映する包括的なシミュレーション環境を構築することで、この重大な問題を調査します。
続いて、明示的な即時操作なしで操作された知識 (すなわち、反事実的で有害な知識) が拡散する可能性を体系的に調査するために、説得力の注入と操作された知識の注入を含む新しい 2 段階の攻撃方法を提案します。
私たちの手法は、世界の知識を扱う際に LLM に固有の脆弱性を利用しており、攻撃者がこの脆弱性を悪用して無意識のうちに捏造された情報を拡散する可能性があります。
広範な実験を通じて、私たちの攻撃方法は、エージェントの通信中にエージェントの基本的な機能を低下させることなく、LLM ベースのエージェントに反事実と有害な知識の両方を広めるように誘導できることを実証しました。
さらに、これらの操作が一般的な検索拡張生成フレームワークを通じて持続する可能性があることを示します。このフレームワークでは、いくつかの無害なエージェントが、将来の対話のために操作されたチャット履歴を保存および取得します。
この持続性は、インタラクションが終了した後でも、良性エージェントが操作された知識の影響を受け続ける可能性があることを示しています。
私たちの調査結果は、LLM ベースのマルチエージェント システムにおける重大なセキュリティ リスクを明らかにし、「ガーディアン」エージェントや高度なファクト チェック ツールの導入など、操作された知識の拡散に対する堅牢な防御が不可欠であることを強調しています。

要約(オリジナル)

The rapid adoption of large language models (LLMs) in multi-agent systems has highlighted their impressive capabilities in various applications, such as collaborative problem-solving and autonomous negotiation. However, the security implications of these LLM-based multi-agent systems have not been thoroughly investigated, particularly concerning the spread of manipulated knowledge. In this paper, we investigate this critical issue by constructing a detailed threat model and a comprehensive simulation environment that mirrors real-world multi-agent deployments in a trusted platform. Subsequently, we propose a novel two-stage attack method involving Persuasiveness Injection and Manipulated Knowledge Injection to systematically explore the potential for manipulated knowledge (i.e., counterfactual and toxic knowledge) spread without explicit prompt manipulation. Our method leverages the inherent vulnerabilities of LLMs in handling world knowledge, which can be exploited by attackers to unconsciously spread fabricated information. Through extensive experiments, we demonstrate that our attack method can successfully induce LLM-based agents to spread both counterfactual and toxic knowledge without degrading their foundational capabilities during agent communication. Furthermore, we show that these manipulations can persist through popular retrieval-augmented generation frameworks, where several benign agents store and retrieve manipulated chat histories for future interactions. This persistence indicates that even after the interaction has ended, the benign agents may continue to be influenced by manipulated knowledge. Our findings reveal significant security risks in LLM-based multi-agent systems, emphasizing the imperative need for robust defenses against manipulated knowledge spread, such as introducing “guardian” agents and advanced fact-checking tools.

arxiv情報

著者 Tianjie Ju,Yiting Wang,Xinbei Ma,Pengzhou Cheng,Haodong Zhao,Yulong Wang,Lifeng Liu,Jian Xie,Zhuosheng Zhang,Gongshen Liu
発行日 2024-07-10 16:08:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク