Analyzing Leakage of Personally Identifiable Information in Language Models

要約

タイトル:言語モデルにおける個人情報の漏洩の分析

要約:
– 言語モデル(LM)は、文レベルのメンバーシップ推論攻撃や再構築攻撃を通じて、トレーニングデータに関する情報を漏洩することが示されている。
– LMが個人情報(PII)を漏洩するリスクを正確に理解することは、スクラブ技術などのデータセットの手動修正技術がPII漏洩を防ぐの十分であるという間違った仮定によると思われる。
– スクラブ技術は、PII漏洩のリスクを減らすが、完全には防げないため、データセットの有用性を保ちながら漏洩を最小限に抑えるためのトレードオフを求める必要がある。
– 一方、文またはユーザレベルのプライバシーを保証するために設計された差分プライバシーなどのアルゴリズムによる防御が、PIIの漏洩をどの程度防ぐことができるかは不明である。
– 本研究では、APIアクセスのみを使用してブラックボックス抽出、推論、再構築攻撃による3種類のPII漏洩の厳密なゲームベースの定義を導入する。
– 案件法、医療、メールの3つの領域でのGPT-2モデルを用いた攻撃を防御の有無で評価する。
– 本研究の主な貢献は、(i) 従来の攻撃よりも最大10倍のPIIシーケンスを抽出できる新しい攻撃方法、(ii) 文字レベルの差分プライバシーはPIIの漏洩リスクを減らすが、約3%のPIIシーケンスの漏洩があることを示すこと、および (iii) レコードレベルのメンバーシップ推論とPII再構築の微妙な関係の説明である。

要約(オリジナル)

Language Models (LMs) have been shown to leak information about training data through sentence-level membership inference and reconstruction attacks. Understanding the risk of LMs leaking Personally Identifiable Information (PII) has received less attention, which can be attributed to the false assumption that dataset curation techniques such as scrubbing are sufficient to prevent PII leakage. Scrubbing techniques reduce but do not prevent the risk of PII leakage: in practice scrubbing is imperfect and must balance the trade-off between minimizing disclosure and preserving the utility of the dataset. On the other hand, it is unclear to which extent algorithmic defenses such as differential privacy, designed to guarantee sentence- or user-level privacy, prevent PII disclosure. In this work, we introduce rigorous game-based definitions for three types of PII leakage via black-box extraction, inference, and reconstruction attacks with only API access to an LM. We empirically evaluate the attacks against GPT-2 models fine-tuned with and without defenses in three domains: case law, health care, and e-mails. Our main contributions are (i) novel attacks that can extract up to 10$\times$ more PII sequences than existing attacks, (ii) showing that sentence-level differential privacy reduces the risk of PII disclosure but still leaks about 3% of PII sequences, and (iii) a subtle connection between record-level membership inference and PII reconstruction. Code to reproduce all experiments in the paper is available at https://github.com/microsoft/analysing_pii_leakage.

arxiv情報

著者 Nils Lukas,Ahmed Salem,Robert Sim,Shruti Tople,Lukas Wutschitz,Santiago Zanella-Béguelin
発行日 2023-04-06 14:16:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク