DP-BART for Privatized Text Rewriting under Local Differential Privacy

要約

ローカル差分プライバシー (LDP) を使用したプライベート化されたテキスト書き換えは、個人に対するプライバシー保護を正式に保証しながら、機密テキスト文書の共有を可能にする最近のアプローチです。
しかし、既存のシステムは、形式的な数学的欠陥、非現実的なプライバシーの保証、個々の単語のみの私物化、透明性と再現性の欠如など、いくつかの問題に直面しています。
本稿では、既存のLDPシステムを大幅に上回る新しいシステム「DP-BART」を提案します。
私たちのアプローチでは、新しいクリッピング方法、反復枝刈り、および内部表現のさらなるトレーニングを使用して、DP 保証に必要なノイズの量を大幅に削減します。
私たちはさまざまなサイズの 5 つのテキスト データセットに対して実験を実行し、異なるプライバシー保証でデータセットを書き換え、下流のテキスト分類タスクで書き換えられたテキストを評価しました。
最後に、高ノイズ要件につながる、LDP パラダイムにおける厳密なテキスト隣接制約の問題を含め、私有化されたテキスト書き換えアプローチとその制限について徹底的に議論します。

要約(オリジナル)

Privatized text rewriting with local differential privacy (LDP) is a recent approach that enables sharing of sensitive textual documents while formally guaranteeing privacy protection to individuals. However, existing systems face several issues, such as formal mathematical flaws, unrealistic privacy guarantees, privatization of only individual words, as well as a lack of transparency and reproducibility. In this paper, we propose a new system ‘DP-BART’ that largely outperforms existing LDP systems. Our approach uses a novel clipping method, iterative pruning, and further training of internal representations which drastically reduces the amount of noise required for DP guarantees. We run experiments on five textual datasets of varying sizes, rewriting them at different privacy guarantees and evaluating the rewritten texts on downstream text classification tasks. Finally, we thoroughly discuss the privatized text rewriting approach and its limitations, including the problem of the strict text adjacency constraint in the LDP paradigm that leads to the high noise requirement.

arxiv情報

著者 Timour Igamberdiev,Ivan Habernal
発行日 2023-06-06 14:17:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク