Spend Your Budget Wisely: Towards an Intelligent Distribution of the Privacy Budget in Differentially Private Text Rewriting

要約

$ \ textIT {Differingivativitivitive Private Text rewriting}のタスクは、(敏感な)入力テキストドキュメントが$ \ textit {rewritten} $ differyial Privacy(DP)保証のクラスです。
このような方法の背後にある動機は、元のテキストの意味的な意味を保持しながら、テキストに含まれる可能性のある明示的および暗黙的な識別子の両方を隠すことです。
近年、この分野での研究出力が増加しており、単語、文、およびドキュメントレベルのDP書き換え方法の多様な配列を提供しています。
これらの方法に共通するのは、プライバシー予算(つまり、$ \ varepsilon $パラメーター)の選択です。これは、テキストが民営化されている程度を支配します。
言語自体の一意の構造から直接発生する以前の作品の主要な制限の1つは、言語のすべての側面、したがってテキストが等しく敏感または個人的であるため、プライバシー予算を割り当てる必要がある$ \ textit {ここで$ \ textit {ここで配分する必要があることです。
この作業では、この欠点に対処した最初の人物であり、特定のプライバシー予算がターゲットドキュメントの間にどのように賢明かつ賢明に分配されるかについての質問をしています。
テキストドキュメントでプライバシー予算を構成トークンに割り当てるために使用される言語学およびNLPベースの方法のツールキットを構築および評価します。
一連のプライバシーとユーティリティの実験では、同じプライバシーの予算を考えると、インテリジェントな分布が$ \ varepsilon $の素朴な分布よりも高いプライバシーレベルと肯定的なトレードオフにつながることを経験的に実証します。
私たちの研究は、DPによるテキストの民営化の複雑さを強調しており、さらに、テキスト書き換えでDPが提供する民営化の利点を最大化するためのより効率的な方法を見つけるためのさらなる作業が必要です。

要約(オリジナル)

The task of $\textit{Differentially Private Text Rewriting}$ is a class of text privatization techniques in which (sensitive) input textual documents are $\textit{rewritten}$ under Differential Privacy (DP) guarantees. The motivation behind such methods is to hide both explicit and implicit identifiers that could be contained in text, while still retaining the semantic meaning of the original text, thus preserving utility. Recent years have seen an uptick in research output in this field, offering a diverse array of word-, sentence-, and document-level DP rewriting methods. Common to these methods is the selection of a privacy budget (i.e., the $\varepsilon$ parameter), which governs the degree to which a text is privatized. One major limitation of previous works, stemming directly from the unique structure of language itself, is the lack of consideration of $\textit{where}$ the privacy budget should be allocated, as not all aspects of language, and therefore text, are equally sensitive or personal. In this work, we are the first to address this shortcoming, asking the question of how a given privacy budget can be intelligently and sensibly distributed amongst a target document. We construct and evaluate a toolkit of linguistics- and NLP-based methods used to allocate a privacy budget to constituent tokens in a text document. In a series of privacy and utility experiments, we empirically demonstrate that given the same privacy budget, intelligent distribution leads to higher privacy levels and more positive trade-offs than a naive distribution of $\varepsilon$. Our work highlights the intricacies of text privatization with DP, and furthermore, it calls for further work on finding more efficient ways to maximize the privatization benefits offered by DP in text rewriting.

arxiv情報

著者 Stephen Meisenbacher,Chaeeun Joy Lee,Florian Matthes
発行日 2025-03-28 12:33:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク