要約
タイトル:言語モデルにおける個人情報の漏えいを分析する
要約:
– 言語モデル(LMs)は、文レベルのメンバーシップ推論や再構築攻撃を通じて、トレーニングデータに関する情報の漏えいが発生することが示されています。
– LMsが個人情報(PII)を漏洩するリスクを理解することは重要ですが、スクラブ(Scrubbing)などのデータセット保護テクニックによってPII漏洩が防止されるという誤った前提があるため、注目を集めていません。
– スクラブテクニックは、PII漏洩のリスクを減らすことはできますが、完全に防止することはできません。また、スクラブは開示を最小限に抑えつつデータセットの有用性を維持するトレードオフを考慮する必要があります。
– 一方、文・ユーザーレベルのプライバシーを保証するように設計された差分プライバシーなどのアルゴリズム的な防御策がどの程度PII漏洩を防止できるかは不明です。
– この研究では、APIアクセスでLMにアクセスし、ブラックボックス抽出、推論、再構築攻撃によって3種類のPII漏えいに対するリグロスなゲームベースの定義を紹介します。
– 私たちは、ケース法、医療、電子メールの3つのドメインでファインチューニングされたGPT-2モデルに対して攻撃を評価しました。
– 私たちの主な貢献は、(i)既存の攻撃よりも最大10倍多くのPIIシーケンスを抽出できる新しい攻撃方法、(ii)文レベルの差分プライバシーがPII漏洩のリスクを減らすことを示したが、PIIシーケンスの約3%が漏洩すること、および(iii)レコードレベルのメンバーシップ推論とPII再構築の微妙な関係についてです。
要約(オリジナル)
Language Models (LMs) have been shown to leak information about training data through sentence-level membership inference and reconstruction attacks. Understanding the risk of LMs leaking Personally Identifiable Information (PII) has received less attention, which can be attributed to the false assumption that dataset curation techniques such as scrubbing are sufficient to prevent PII leakage. Scrubbing techniques reduce but do not prevent the risk of PII leakage: in practice scrubbing is imperfect and must balance the trade-off between minimizing disclosure and preserving the utility of the dataset. On the other hand, it is unclear to which extent algorithmic defenses such as differential privacy, designed to guarantee sentence- or user-level privacy, prevent PII disclosure. In this work, we introduce rigorous game-based definitions for three types of PII leakage via black-box extraction, inference, and reconstruction attacks with only API access to an LM. We empirically evaluate the attacks against GPT-2 models fine-tuned with and without defenses on three domains: case law, health care, and e-mails. Our main contributions are (i) novel attacks that can extract up to 10$\times$ more PII sequences than existing attacks, (ii) showing that sentence-level differential privacy reduces the risk of PII disclosure but still leaks about 3% of PII sequences, and (iii) a subtle connection between record-level membership inference and PII reconstruction.
arxiv情報
著者 | Nils Lukas,Ahmed Salem,Robert Sim,Shruti Tople,Lukas Wutschitz,Santiago Zanella-Béguelin |
発行日 | 2023-04-04 15:07:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI