A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage

要約

機密性の高いテキストデータのサニタイズは、通常、個人を特定できる情報(PII)を削除するか、合成データを生成することであり、これらの方法はプライバシーを適切に保護するという仮定の下に行われる。しかし、その有効性は、しばしば、明示的な識別子の漏洩を測定することによってのみ評価され、再識別につながる可能性のある微妙なテキストマーカーは無視される。我々は、データ公開時の個人のプライバシーリスクを定量化するために、再識別化攻撃を評価する新しいフレームワークを提案することによって、上記のようなプライバシーの幻想に挑戦する。我々のアプローチは、日常的な社会活動のような一見無害な補助情報が、サニタイズされたデータから年齢や薬物使用歴のようなセンシティブな属性を推測するために使用できることを示す。例えば、Azureの商用PII除去ツールは、MedQAデータセットの74%の情報を保護できないことを示す。差分プライバシーはこれらのリスクをある程度軽減するが、下流のタスクにおけるサニタイズされたテキストの有用性を著しく低下させる。我々の発見は、現在のサニタイズ技術が「偽のプライバシー感覚」を提供することを示しており、意味レベルの情報漏洩から保護する、より頑健な手法の必要性を強調している。

要約(オリジナル)

Sanitizing sensitive text data typically involves removing personally identifiable information (PII) or generating synthetic data under the assumption that these methods adequately protect privacy; however, their effectiveness is often only assessed by measuring the leakage of explicit identifiers but ignoring nuanced textual markers that can lead to re-identification. We challenge the above illusion of privacy by proposing a new framework that evaluates re-identification attacks to quantify individual privacy risks upon data release. Our approach shows that seemingly innocuous auxiliary information — such as routine social activities — can be used to infer sensitive attributes like age or substance use history from sanitized data. For instance, we demonstrate that Azure’s commercial PII removal tool fails to protect 74\% of information in the MedQA dataset. Although differential privacy mitigates these risks to some extent, it significantly reduces the utility of the sanitized text for downstream tasks. Our findings indicate that current sanitization techniques offer a \textit{false sense of privacy}, highlighting the need for more robust methods that protect against semantic-level information leakage.

arxiv情報

著者 Rui Xin,Niloofar Mireshghallah,Shuyue Stella Li,Michael Duan,Hyunwoo Kim,Yejin Choi,Yulia Tsvetkov,Sewoong Oh,Pang Wei Koh
発行日 2025-05-02 17:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク