DP-BART for Privatized Text Rewriting under Local Differential Privacy

要約

ローカル差分プライバシー (LDP) を使用したプライベート化されたテキストの書き換えは、個人のプライバシー保護を正式に保証しながら、機密性の高いテキスト ドキュメントの共有を可能にする最近のアプローチです。
ただし、既存のシステムは、形式的な数学的欠陥、非現実的なプライバシー保証、個々の単語のみの民営化、透明性と再現性の欠如など、いくつかの問題に直面しています。
この論文では、既存の LDP システムを大幅に上回る新しいシステム「DP-BART」を提案します。
私たちのアプローチは、新しいクリッピング方法、反復プルーニング、および内部表現のさらなるトレーニングを使用して、DP 保証に必要なノイズの量を大幅に削減します。
さまざまなサイズの 5 つのテキスト データセットに対して実験を行い、異なるプライバシー保証でそれらを書き換え、ダウンストリームのテキスト分類タスクで書き換えられたテキストを評価します。
最後に、高ノイズ要件につながる LDP パラダイムにおける厳密なテキスト隣接制約の問題を含む、私有化されたテキスト書き換えアプローチとその制限について徹底的に説明します。

要約(オリジナル)

Privatized text rewriting with local differential privacy (LDP) is a recent approach that enables sharing of sensitive textual documents while formally guaranteeing privacy protection to individuals. However, existing systems face several issues, such as formal mathematical flaws, unrealistic privacy guarantees, privatization of only individual words, as well as a lack of transparency and reproducibility. In this paper, we propose a new system ‘DP-BART’ that largely outperforms existing LDP systems. Our approach uses a novel clipping method, iterative pruning, and further training of internal representations which drastically reduces the amount of noise required for DP guarantees. We run experiments on five textual datasets of varying sizes, rewriting them at different privacy guarantees and evaluating the rewritten texts on downstream text classification tasks. Finally, we thoroughly discuss the privatized text rewriting approach and its limitations, including the problem of the strict text adjacency constraint in the LDP paradigm that leads to the high noise requirement.

arxiv情報

著者 Timour Igamberdiev,Ivan Habernal
発行日 2023-02-15 13:07:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク