要約
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために非常に重要です。
既存の技術は、大規模言語モデル (LLM) の再識別攻撃能力という新たな課題に直面しています。LLM は、詳細な情報とパターンを記憶し、異種の情報を結合する高度な機能を示しています。
LLM ベースの再識別攻撃を防御する場合、匿名化により、下流タスクでの結果として得られる匿名化データの有用性が危険にさらされる可能性があります。プライバシーとデータの有用性の間のトレードオフについては、LLM のコンテキスト内でのより深い理解が必要です。
この論文では、プライバシー評価、ユーティリティ評価、最適化コンポーネントという 3 つの LLM ベースのコンポーネントで構成されるフレームワークを提案します。これらは連携して匿名化を実行します。
大規模なリアルタイム環境に実用的なモデルを提供するために、Direct Preference Optimization (DPO) を使用して匿名化機能を軽量モデルに抽出しました。
広範な実験により、提案されたモデルがベースライン モデルよりも優れたパフォーマンスを示し、下流タスクでのより優れたデータの有用性を維持しながら、再識別のリスクを軽減する堅牢性が示されています。
コードとデータセットは https://github.com/UKPLab/arxiv2024-rupta で入手できます。
要約(オリジナル)
Text anonymization is crucial for sharing sensitive data while maintaining privacy. Existing techniques face the emerging challenges of re-identification attack ability of Large Language Models (LLMs), which have shown advanced capability in memorizing detailed information and patterns as well as connecting disparate pieces of information. In defending against LLM-based re-identification attacks, anonymization could jeopardize the utility of the resulting anonymized data in downstream tasks — the trade-off between privacy and data utility requires deeper understanding within the context of LLMs. This paper proposes a framework composed of three LLM-based components — a privacy evaluator, a utility evaluator, and an optimization component, which work collaboratively to perform anonymization. To provide a practical model for large-scale and real-time environments, we distill the anonymization capabilities into a lightweight model using Direct Preference Optimization (DPO). Extensive experiments demonstrate that the proposed models outperform baseline models, showing robustness in reducing the risk of re-identification while preserving greater data utility in downstream tasks. Our code and dataset are available at https://github.com/UKPLab/arxiv2024-rupta.
arxiv情報
著者 | Tianyu Yang,Xiaodan Zhu,Iryna Gurevych |
発行日 | 2024-07-16 14:28:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google