Air Gap: Protecting Privacy-Conscious Conversational Agents

要約

機密性の高いユーザー データを管理するために大規模言語モデル (LLM) ベースの会話エージェントの使用が増加しているため、プライバシーに関する重大な懸念が生じています。
これらのエージェントはコンテキストを理解し、それに基づいて行動することに優れていますが、この機能は悪意のある攻撃者によって悪用される可能性があります。
私たちは、敵対的なサードパーティ アプリが対話のコンテキストを操作して、LLM ベースのエージェントをだまして当面のタスクに関係のない個人情報を明らかにさせる、新しい脅威モデルを導入します。
コンテキスト整合性のフレームワークに基づいて、エージェントのアクセスを特定のタスクに必要なデータのみに制限することで、意図しないデータ漏洩を防ぐように設計されたプライバシーを意識したエージェントである AirGapAgent を紹介します。
Gemini、GPT、および Mistral モデルをエージェントとして使用した広範な実験により、コア エージェントの機能を維持しながら、この形式のコンテキスト ハイジャックを軽減するアプローチの有効性が検証されています。
たとえば、Gemini Ultra エージェントに対する単一クエリのコンテキスト ハイジャック攻撃により、ユーザー データの保護能力が 94% から 45% に低下するのに対し、AirGapAgent は 97% の保護を達成し、同じ攻撃が無効になることがわかりました。

要約(オリジナル)

The growing use of large language model (LLM)-based conversational agents to manage sensitive user data raises significant privacy concerns. While these agents excel at understanding and acting on context, this capability can be exploited by malicious actors. We introduce a novel threat model where adversarial third-party apps manipulate the context of interaction to trick LLM-based agents into revealing private information not relevant to the task at hand. Grounded in the framework of contextual integrity, we introduce AirGapAgent, a privacy-conscious agent designed to prevent unintended data leakage by restricting the agent’s access to only the data necessary for a specific task. Extensive experiments using Gemini, GPT, and Mistral models as agents validate our approach’s effectiveness in mitigating this form of context hijacking while maintaining core agent functionality. For example, we show that a single-query context hijacking attack on a Gemini Ultra agent reduces its ability to protect user data from 94% to 45%, while an AirGapAgent achieves 97% protection, rendering the same attack ineffective.

arxiv情報

著者 Eugene Bagdasaryan,Ren Yi,Sahra Ghalebikesabi,Peter Kairouz,Marco Gruteser,Sewoong Oh,Borja Balle,Daniel Ramage
発行日 2024-05-08 16:12:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク