The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks

要約

大規模言語モデル (LLM) の急速な進歩により、その広範なトレーニング データセット内の個人を特定できる情報 (PII) のプライバシー漏洩について一般の懸念が生じています。
最近の研究では、攻撃者が慎重に設計されたプロンプトを使用して、LLM のトレーニング データから機密性の高いプライバシー データを抽出できることが実証されています。
ただし、これらの攻撃には、トレーニング前の段階でモデルが幻覚や壊滅的な忘却 (CF) を起こす傾向があり、漏洩した PII の真実性が無視できるものになってしまいます。
私たちの研究では、微調整インターフェイスを悪用して、LLM の事前トレーニング データから忘れられた PII を回復する新しい攻撃である Janus を提案します。
私たちは LLM におけるプライバシー漏洩の問題を形式化し、オープンソース言語モデルの実証分析を通じて忘れられた PII を回復できる理由を説明します。
これらの洞察に基づいて、オープンソース言語モデルと 2 つの最新 LLM (GPT-3.5-Turbo と LLaMA-2-7b) の両方で Janus のパフォーマンスを評価します。
私たちの実験結果は、Janus がベースラインと比較してプライバシー リスクを 10 倍以上増幅し、プレフィックス攻撃やインコンテキスト学習 (ICL) を含む最先端のプライバシー抽出攻撃を大幅に上回っていることを示しています。
さらに、私たちの分析では、OpenAI と Azure AI Studio が提供する既存の微調整 API が Janus 攻撃の影響を受けやすく、攻撃者が低コストでそのような攻撃を実行できることが検証されています。

要約(オリジナル)

The rapid advancements of large language models (LLMs) have raised public concerns about the privacy leakage of personally identifiable information (PII) within their extensive training datasets. Recent studies have demonstrated that an adversary could extract highly sensitive privacy data from the training data of LLMs with carefully designed prompts. However, these attacks suffer from the model’s tendency to hallucinate and catastrophic forgetting (CF) in the pre-training stage, rendering the veracity of divulged PIIs negligible. In our research, we propose a novel attack, Janus, which exploits the fine-tuning interface to recover forgotten PIIs from the pre-training data in LLMs. We formalize the privacy leakage problem in LLMs and explain why forgotten PIIs can be recovered through empirical analysis on open-source language models. Based upon these insights, we evaluate the performance of Janus on both open-source language models and two latest LLMs, i.e., GPT-3.5-Turbo and LLaMA-2-7b. Our experiment results show that Janus amplifies the privacy risks by over 10 times in comparison with the baseline and significantly outperforms the state-of-the-art privacy extraction attacks including prefix attacks and in-context learning (ICL). Furthermore, our analysis validates that existing fine-tuning APIs provided by OpenAI and Azure AI Studio are susceptible to our Janus attack, allowing an adversary to conduct such an attack at a low cost.

arxiv情報

著者 Xiaoyi Chen,Siyuan Tang,Rui Zhu,Shijun Yan,Lei Jin,Zihao Wang,Liya Su,Zhikun Zhang,XiaoFeng Wang,Haixu Tang
発行日 2024-07-26 04:43:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク