要約
今日の大規模言語モデル (LLM) とデータ駆動型サービスの世界では、機密情報を保護することが非常に重要です。
プライバシーを保護するために使用される一般的な方法の 1 つは、データ摂動技術を使用して、(機密性の高い) 個人識別情報 (PII) データの統計的および意味論的な特性を維持しながら、その過度の利用を削減することです。
データ摂動手法は多くの場合、重大な情報損失を引き起こすため、使用が非現実的になります。
この論文では、元の情報、意図、およびコンテキストを可能な限り保持しながら、PII を偽 PII に変換するための新しい難読化トランスフォーマー フレームワークである「Life of PII」を提案します。
私たちのアプローチには、特定のドキュメントとインターフェイスするための API、構成ベースの難読化ツール、および自然言語処理タスクと LLM で高いコンテキストの保存とパフォーマンスを示した Transformer アーキテクチャに基づくモデルが含まれています。
当社の Transformer ベースのアプローチは、元の PII とその変換された疑似 PII 表現 (これを「難読化」データと呼びます) の間のマッピングを学習します。
私たちの実験は、Life of PII と呼ばれる私たちの方法が、ユーティリティの保存とプライバシー保護の両方の点で、従来のデータ摂動技術よりも優れていることを示しています。
私たちのアプローチは、元の情報を保存しながらユーティリティの損失を効果的に削減でき、プライバシー保護とデータユーティリティの間のトレードオフにおいてより大きな柔軟性を提供できることを示します。
私たちの取り組みは、現実世界のさまざまなアプリケーションで PII を保護するためのソリューションを提供します。
要約(オリジナル)
Protecting sensitive information is crucial in today’s world of Large Language Models (LLMs) and data-driven services. One common method used to preserve privacy is by using data perturbation techniques to reduce overreaching utility of (sensitive) Personal Identifiable Information (PII) data while maintaining its statistical and semantic properties. Data perturbation methods often result in significant information loss, making them impractical for use. In this paper, we propose ‘Life of PII’, a novel Obfuscation Transformer framework for transforming PII into faux-PII while preserving the original information, intent, and context as much as possible. Our approach includes an API to interface with the given document, a configuration-based obfuscator, and a model based on the Transformer architecture, which has shown high context preservation and performance in natural language processing tasks and LLMs. Our Transformer-based approach learns mapping between the original PII and its transformed faux-PII representation, which we call ‘obfuscated’ data. Our experiments demonstrate that our method, called Life of PII, outperforms traditional data perturbation techniques in terms of both utility preservation and privacy protection. We show that our approach can effectively reduce utility loss while preserving the original information, offering greater flexibility in the trade-off between privacy protection and data utility. Our work provides a solution for protecting PII in various real-world applications.
arxiv情報
著者 | Ajinkya Deshmukh,Saumya Banthia,Anantha Sharma |
発行日 | 2023-05-16 15:48:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google