Large Language Models are Advanced Anonymizers

要約

大規模言語モデル(LLM)に関する最近のプライバシー研究では、LLMがオンラインテキストから個人データを推論する際に、人間に近いレベルの性能を達成することが示されています。モデルの性能がますます向上する中、既存のテキスト匿名化手法は、規制要件や敵対的な脅威の影に隠れているのが現状です。本研究では、このギャップを埋めるために2つのステップを踏む:まず、敵対的なLLM推論に直面して匿名化を評価するための新しい設定を提示し、匿名化のパフォーマンスを自然に測定できるようにするとともに、これまでの測定基準の欠点をいくつか改善する。そして、この設定の中で、LLMの強力な推論能力を活用して、LLMベースの新しい敵対的匿名化フレームワークを開発し、匿名化手順に反映させる。実世界および合成オンラインテキストを対象に、13のLLMを用いた敵対的匿名化の包括的な実験的評価を行い、複数のベースラインおよび業界グレードの匿名化ツールと比較した。我々の評価では、敵対的匿名化は、結果として得られる実用性とプライバシーの両方において、現在の市販の匿名化ツールを凌駕することが示された。我々は、LLMによって匿名化されたテキストに対する人間の強い一貫した嗜好を強調する人間研究(n=50)で我々の調査結果を支持する。

要約(オリジナル)

Recent privacy research on large language models (LLMs) has shown that they achieve near-human-level performance at inferring personal data from online texts. With ever-increasing model capabilities, existing text anonymization methods are currently lacking behind regulatory requirements and adversarial threats. In this work, we take two steps to bridge this gap: First, we present a new setting for evaluating anonymization in the face of adversarial LLM inferences, allowing for a natural measurement of anonymization performance while remedying some of the shortcomings of previous metrics. Then, within this setting, we develop a novel LLM-based adversarial anonymization framework leveraging the strong inferential capabilities of LLMs to inform our anonymization procedure. We conduct a comprehensive experimental evaluation of adversarial anonymization across 13 LLMs on real-world and synthetic online texts, comparing it against multiple baselines and industry-grade anonymizers. Our evaluation shows that adversarial anonymization outperforms current commercial anonymizers both in terms of the resulting utility and privacy. We support our findings with a human study (n=50) highlighting a strong and consistent human preference for LLM-anonymized texts.

arxiv情報

著者 Robin Staab,Mark Vero,Mislav Balunović,Martin Vechev
発行日 2025-02-03 16:03:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CR, I.2.7 パーマリンク