From Allies to Adversaries: Manipulating LLM Tool-Calling through Adversarial Injection

要約

ツール呼び出しは、外部ツールを統合することによって大規模言語モデル (LLM) アプリケーションを変更し、さまざまなタスクにわたってその機能を大幅に強化しました。
ただし、この統合により、特に十分に研究されていない LLM のツール スケジューリング メカニズムに、新たなセキュリティ上の脆弱性も導入されます。
このギャップを埋めるために、敵対的ツール インジェクションを通じて LLM ツール呼び出しシステムの脆弱性を悪用するように設計された新しいフレームワークである ToolCommander を紹介します。
私たちのフレームワークは、適切に設計された 2 段階の攻撃戦略を採用しています。
まず、悪意のあるツールを挿入してユーザーのクエリを収集し、次に、盗まれた情報に基づいて挿入されたツールを動的に更新して、その後の攻撃を強化します。
これらの段階により、ToolCommander はプライバシーの盗難を実行したり、サービス拒否攻撃を開始したり、予定外のツール呼び出しをトリガーしてビジネス競争を操作したりすることもできます。
特に、プライバシーの盗難では ASR が 91.67% に達し、特定のケースではサービス拒否や予定外のツール呼び出しでは 100% に達します。
私たちの研究は、これらの脆弱性がツール呼び出しシステムの単純な悪用を超えて深刻な結果を引き起こす可能性があることを実証しており、LLM ツール呼び出しシステムを保護するための堅牢な防御戦略が緊急に必要であることを強調しています。

要約(オリジナル)

Tool-calling has changed Large Language Model (LLM) applications by integrating external tools, significantly enhancing their functionality across diverse tasks. However, this integration also introduces new security vulnerabilities, particularly in the tool scheduling mechanisms of LLM, which have not been extensively studied. To fill this gap, we present ToolCommander, a novel framework designed to exploit vulnerabilities in LLM tool-calling systems through adversarial tool injection. Our framework employs a well-designed two-stage attack strategy. Firstly, it injects malicious tools to collect user queries, then dynamically updates the injected tools based on the stolen information to enhance subsequent attacks. These stages enable ToolCommander to execute privacy theft, launch denial-of-service attacks, and even manipulate business competition by triggering unscheduled tool-calling. Notably, the ASR reaches 91.67% for privacy theft and hits 100% for denial-of-service and unscheduled tool calling in certain cases. Our work demonstrates that these vulnerabilities can lead to severe consequences beyond simple misuse of tool-calling systems, underscoring the urgent need for robust defensive strategies to secure LLM Tool-calling systems.

arxiv情報

著者 Haowei Wang,Rupeng Zhang,Junjie Wang,Mingyang Li,Yuekai Huang,Dandan Wang,Qing Wang
発行日 2024-12-13 15:15:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク