Guiding Text-to-Text Privatization by Syntax

要約

メトリックディファレンシャルプライバシーはディファレンシャルプライバシーを一般化したもので、テキストからテキストへのプライバシーのユニークな課題に対応するように調整されています。埋め込みの幾何学的空間における単語の表現にノイズを加えることで、単語はノイズのある表現の近傍に位置する単語と置き換えられる。埋め込みは単語の共起に基づいて学習されるため、このメカニズムにより、置換は共通の意味的文脈に由来することが保証される。しかし、単語の文法的カテゴリを考慮しなければ、このメカニズムでは、置換が同様の構文的役割を果たすことを保証することができない。私たちは、置換後の単語の文法的カテゴリーを保持するテキスト・トゥ・テキスト私有化の能力を分析し、代理テキストがほとんど名詞で構成されていることを発見した。また、代用テキストはほぼ名詞のみであることがわかった。機密テキストの構造と相関する代用テキストを生成する能力がないため、私有化ステップを候補選択問題に変換し、文法的特性が一致する単語に代用することで分析を包含した。比較的なプライバシー保証を維持しながら、下流タスクの性能を最大4.66%$向上させることを実証する。

要約(オリジナル)

Metric Differential Privacy is a generalization of differential privacy tailored to address the unique challenges of text-to-text privatization. By adding noise to the representation of words in the geometric space of embeddings, words are replaced with words located in the proximity of the noisy representation. Since embeddings are trained based on word co-occurrences, this mechanism ensures that substitutions stem from a common semantic context. Without considering the grammatical category of words, however, this mechanism cannot guarantee that substitutions play similar syntactic roles. We analyze the capability of text-to-text privatization to preserve the grammatical category of words after substitution and find that surrogate texts consist almost exclusively of nouns. Lacking the capability to produce surrogate texts that correlate with the structure of the sensitive texts, we encompass our analysis by transforming the privatization step into a candidate selection problem in which substitutions are directed to words with matching grammatical properties. We demonstrate a substantial improvement in the performance of downstream tasks by up to $4.66\%$ while retaining comparative privacy guarantees.

arxiv情報

著者 Stefan Arnold,Dilara Yesilbas,Sven Weinzierl
発行日 2023-06-02 11:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク