IP Leakage Attacks Targeting LLM-Based Multi-Agent Systems

要約

大規模な言語モデル(LLMS)の急速な進歩により、マルチエージェントシステム(MAS)が出現し、コラボレーションを通じて複雑なタスクを実行しました。
ただし、MASの複雑な性質は、その建築とエージェントの相互作用を含め、知的財産(IP)保護に関する重要な懸念を引き起こします。
この論文では、MASアプリケーションから機密情報を抽出するために設計された新しい攻撃フレームワークであるMasLeakを紹介します。
MasLeakは、敵がMASアーキテクチャまたはエージェント構成の事前知識を持たない実用的なブラックボックス設定をターゲットにしています。
敵は、パブリックAPIを介してMASとのみ相互作用し、攻撃クエリ$ Q $を送信し、最終エージェントからの出力を観察することができます。
コンピューターワームが脆弱なネットワークホストに伝播して感染する方法に触発されたMasLeakは、エージェント数、システムトポロジ、システムプロンプト、タスク指示、ツールのusを含む専有コンポーネントの完全なセットを明らかにする各MASエージェントからの応答を引き出し、伝播し、維持するために敵対的なクエリ$ Q $を慎重に作成します。
810アプリケーションを使用してMASアプリケーションの最初の合成データセットを構築し、CozeやCrewaiを含む実際のMASアプリケーションに対してMasLeakを評価します。
MasLeakは、MAS IPの抽出において高精度を達成し、システムプロンプトとタスク命令で平均攻撃成功率は87%、システムアーキテクチャでは92%が得られます。
私たちは、私たちの調査結果の意味と潜在的な防御について議論することで結論を出します。

要約(オリジナル)

The rapid advancement of Large Language Models (LLMs) has led to the emergence of Multi-Agent Systems (MAS) to perform complex tasks through collaboration. However, the intricate nature of MAS, including their architecture and agent interactions, raises significant concerns regarding intellectual property (IP) protection. In this paper, we introduce MASLEAK, a novel attack framework designed to extract sensitive information from MAS applications. MASLEAK targets a practical, black-box setting, where the adversary has no prior knowledge of the MAS architecture or agent configurations. The adversary can only interact with the MAS through its public API, submitting attack query $q$ and observing outputs from the final agent. Inspired by how computer worms propagate and infect vulnerable network hosts, MASLEAK carefully crafts adversarial query $q$ to elicit, propagate, and retain responses from each MAS agent that reveal a full set of proprietary components, including the number of agents, system topology, system prompts, task instructions, and tool usages. We construct the first synthetic dataset of MAS applications with 810 applications and also evaluate MASLEAK against real-world MAS applications, including Coze and CrewAI. MASLEAK achieves high accuracy in extracting MAS IP, with an average attack success rate of 87% for system prompts and task instructions, and 92% for system architecture in most cases. We conclude by discussing the implications of our findings and the potential defenses.

arxiv情報

著者 Liwen Wang,Wenxuan Wang,Shuai Wang,Zongjie Li,Zhenlan Ji,Zongyi Lyu,Daoyuan Wu,Shing-Chi Cheung
発行日 2025-06-17 15:37:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク