Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification

要約

最近、大規模言語モデル (LLM) に基づいて構築された自律エージェントが大幅に開発され、現実世界のアプリケーションに導入されています。
これらのエージェントは、基本 LLM の機能を複数の方法で拡張できます。
たとえば、GPT-3.5-Turbo をコアとして使用する適切に構築されたエージェントは、外部コンポーネントを活用することで、より高度な GPT-4 モデルよりも優れたパフォーマンスを発揮できます。
さらに重要なのは、ツールを使用すると、これらのシステムが現実世界でアクションを実行できるようになり、単なるテキストの生成から環境との積極的な対話に移行できるようになります。
エージェントの実際のアプリケーションと、結果として生じるアクションを実行する能力を考慮すると、潜在的な脆弱性を評価することが重要です。
このような自律システムは、侵害された場合、スタンドアロン言語モデルよりも深刻な損害を引き起こす可能性があります。
既存の研究の中には LLM エージェントによる有害な行為を調査したものもありますが、私たちの研究では別の観点から脆弱性にアプローチしています。
エージェントを誤解させて反復的または無関係なアクションを実行させることで機能不全を引き起こす、新しいタイプの攻撃を導入します。
さまざまな攻撃方法、表面、特性を使用して総合的な評価を実施し、影響を受けやすい領域を特定します。
私たちの実験により、これらの攻撃は複数のシナリオで 80\% を超える失敗率を引き起こす可能性があることが明らかになりました。
マルチエージェント シナリオで実装および展開可能なエージェントに対する攻撃を通じて、これらの脆弱性に関連する現実的なリスクが強調されます。
このような攻撃を軽減するために、私たちは自己検査による検出方法を提案します。
ただし、私たちの調査結果では、LLM のみを使用してこれらの攻撃を効果的に検出するのは困難であることが示されており、この脆弱性に関連する重大なリスクが浮き彫りになっています。

要約(オリジナル)

Recently, autonomous agents built on large language models (LLMs) have experienced significant development and are being deployed in real-world applications. These agents can extend the base LLM’s capabilities in multiple ways. For example, a well-built agent using GPT-3.5-Turbo as its core can outperform the more advanced GPT-4 model by leveraging external components. More importantly, the usage of tools enables these systems to perform actions in the real world, moving from merely generating text to actively interacting with their environment. Given the agents’ practical applications and their ability to execute consequential actions, it is crucial to assess potential vulnerabilities. Such autonomous systems can cause more severe damage than a standalone language model if compromised. While some existing research has explored harmful actions by LLM agents, our study approaches the vulnerability from a different perspective. We introduce a new type of attack that causes malfunctions by misleading the agent into executing repetitive or irrelevant actions. We conduct comprehensive evaluations using various attack methods, surfaces, and properties to pinpoint areas of susceptibility. Our experiments reveal that these attacks can induce failure rates exceeding 80\% in multiple scenarios. Through attacks on implemented and deployable agents in multi-agent scenarios, we accentuate the realistic risks associated with these vulnerabilities. To mitigate such attacks, we propose self-examination detection methods. However, our findings indicate these attacks are difficult to detect effectively using LLMs alone, highlighting the substantial risks associated with this vulnerability.

arxiv情報

著者 Boyang Zhang,Yicong Tan,Yun Shen,Ahmed Salem,Michael Backes,Savvas Zannettou,Yang Zhang
発行日 2024-07-30 14:35:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク