要約
近年、GPTシリーズモデルに代表される大規模言語モデル(LLM)の分野で大きな進歩が見られる。タスクの実行を最適化するために、ユーザーはクラウド環境でホストされたGPTモデルと複数ラウンドの会話を行うことがよくあります。このような多ラウンドの会話は、潜在的に個人情報が多く含まれるため、クラウド内での送信と保存が必要になります。しかし、このような運用パラダイムは、新たな攻撃面をもたらします。本論文では、まずGPTモデルを標的とした特定の会話再構成攻撃を紹介します。紹介する会話再構築攻撃は、セッションのハイジャックと会話の再構築という2つのステップで構成される。その後、GPTモデルが提案する攻撃にさらされた場合の会話に内在するプライバシーリスクの徹底的な評価を行う。しかし、GPT-4は提案された攻撃に対して一定の頑健性を示す。次に、過去の会話をより良く再構成することを目的とした2つの高度な攻撃、具体的にはUNR攻撃とPBU攻撃を紹介する。我々の実験結果から、PBU攻撃は全てのモデルで実質的な性能を発揮し、0.60を超える意味類似度スコアを達成する一方、UNR攻撃はGPT-3.5でのみ有効であることが示された。我々の結果は、GPTモデルを含む会話に関連するプライバシーリスクに関する懸念を明らかにし、これらのモデルの顕著な能力の潜在的な悪用を防止するために、コミュニティの注意を喚起することを目的としています。私たちは、関連する大規模言語モデルのサプライヤに対して、責任を持って私たちの発見を開示します。
要約(オリジナル)
In recent times, significant advancements have been made in the field of large language models (LLMs), represented by GPT series models. To optimize task execution, users often engage in multi-round conversations with GPT models hosted in cloud environments. These multi-round conversations, potentially replete with private information, require transmission and storage within the cloud. However, this operational paradigm introduces additional attack surfaces. In this paper, we first introduce a specific Conversation Reconstruction Attack targeting GPT models. Our introduced Conversation Reconstruction Attack is composed of two steps: hijacking a session and reconstructing the conversations. Subsequently, we offer an exhaustive evaluation of the privacy risks inherent in conversations when GPT models are subjected to the proposed attack. However, GPT-4 demonstrates certain robustness to the proposed attacks. We then introduce two advanced attacks aimed at better reconstructing previous conversations, specifically the UNR attack and the PBU attack. Our experimental findings indicate that the PBU attack yields substantial performance across all models, achieving semantic similarity scores exceeding 0.60, while the UNR attack is effective solely on GPT-3.5. Our results reveal the concern about privacy risks associated with conversations involving GPT models and aim to draw the community’s attention to prevent the potential misuse of these models’ remarkable capabilities. We will responsibly disclose our findings to the suppliers of related large language models.
arxiv情報
著者 | Junjie Chu,Zeyang Sha,Michael Backes,Yang Zhang |
発行日 | 2024-02-05 13:18:42+00:00 |
arxivサイト | arxiv_id(pdf) |