Granularity is crucial when applying differential privacy to text: An investigation for neural machine translation

要約

DP-SGD アルゴリズムを使用して差分プライバシー (DP) を適用し、トレーニング中に個々のデータ ポイントを保護することは、NLP でますます一般的になってきています。
ただし、DP を適用する粒度の選択は無視されることがよくあります。
たとえば、ニューラル機械翻訳 (NMT) は通常、文レベルの粒度で動作します。
DP の観点から見ると、この設定は、各文が 1 人の人物に属し、トレーニング データセット内の 2 つの文が独立していることを前提としています。
ただし、この仮定は多くの実世界の NMT データセットで違反されています。
対話を含むもの。
したがって、DP を適切に適用するには、文章から文書全体に移行する必要があります。
このペーパーでは、文レベルと文書レベルの両方で NMT を調査し、両方のシナリオのプライバシーとユーティリティのトレードオフを分析し、個人を特定できる情報 (PII) の漏洩という観点から、適切なプライバシーの粒度を使用しない場合のリスクを評価します。
私たちの調査結果は、ドキュメント レベルの NMT システムがメンバーシップ推論攻撃に対してより耐性があることを示しており、DP を使用するときに適切な粒度を使用することの重要性が強調されています。

要約(オリジナル)

Applying differential privacy (DP) by means of the DP-SGD algorithm to protect individual data points during training is becoming increasingly popular in NLP. However, the choice of granularity at which DP is applied is often neglected. For example, neural machine translation (NMT) typically operates on the sentence-level granularity. From the perspective of DP, this setup assumes that each sentence belongs to a single person and any two sentences in the training dataset are independent. This assumption is however violated in many real-world NMT datasets, e.g. those including dialogues. For proper application of DP we thus must shift from sentences to entire documents. In this paper, we investigate NMT at both the sentence and document levels, analyzing the privacy/utility trade-off for both scenarios, and evaluating the risks of not using the appropriate privacy granularity in terms of leaking personally identifiable information (PII). Our findings indicate that the document-level NMT system is more resistant to membership inference attacks, emphasizing the significance of using the appropriate granularity when working with DP.

arxiv情報

著者 Doan Nam Long Vu,Timour Igamberdiev,Ivan Habernal
発行日 2024-07-26 14:52:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク