Unveiling Privacy Risks in LLM Agent Memory

要約

大規模言語モデル(LLM)エージェントは、実世界の様々なアプリケーションでますます普及している。LLMエージェントは、プライベートなユーザとエージェントのやり取りをメモリモジュールに保存し、デモンストレーションを行うことで意思決定を強化する。この研究では、我々が提案するMemory EXTRaction Attack (MEXTRA)に対するLLMエージェントの脆弱性を、ブラックボックス設定下で系統的に調査する。メモリから個人情報を抽出するために、我々は効果的な攻撃プロンプトの設計と、LLMエージェントに関する異なる知識レベルに基づく自動プロンプト生成方法を提案する。つの代表的なエージェントを用いた実験により、MEXTRAの有効性を実証する。さらに、エージェント設計者と攻撃者の両方の視点から、メモリリークに影響を与える主な要因を探る。我々の発見は、LLMエージェントの設計と配備における効果的なメモリ安全策の緊急の必要性を強調している。

要約(オリジナル)

Large Language Model (LLM) agents have become increasingly prevalent across various real-world applications. They enhance decision-making by storing private user-agent interactions in the memory module for demonstrations, introducing new privacy risks for LLM agents. In this work, we systematically investigate the vulnerability of LLM agents to our proposed Memory EXTRaction Attack (MEXTRA) under a black-box setting. To extract private information from memory, we propose an effective attacking prompt design and an automated prompt generation method based on different levels of knowledge about the LLM agent. Experiments on two representative agents demonstrate the effectiveness of MEXTRA. Moreover, we explore key factors influencing memory leakage from both the agent designer’s and the attacker’s perspectives. Our findings highlight the urgent need for effective memory safeguards in LLM agent design and deployment.

arxiv情報

著者 Bo Wang,Weiyi He,Shenglai Zeng,Zhen Xiang,Yue Xing,Jiliang Tang,Pengfei He
発行日 2025-06-03 17:08:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR パーマリンク