要約
多くの研究で、事前トレーニングされた大規模な言語モデルに関連するプライバシーのリスクが強調されています。
対照的に、私たちの研究は、事前トレーニングされた大規模言語モデルがプライバシー保護に効果的に貢献できることを実証することで、独自の視点を提供します。
私たちは、DP-Prompt と呼ばれるローカル差分プライベート メカニズムを提案します。これは、事前トレーニング済みの大規模言語モデルとゼロショット プロンプトの力を活用して、下流のユーティリティへの影響を最小限に抑えながら、著者の匿名化攻撃に対抗します。
DP-Prompt を ChatGPT (gpt-3.5) のような強力な言語モデルとともに使用すると、匿名化攻撃の成功率が顕著に低下することが観察され、そのシンプルな設計にもかかわらず、既存のアプローチを大幅に上回っていることがわかります。
たとえば、IMDB データセットの場合、DP-Prompt (ChatGPT を使用) はクリーン センチメント F1 スコアを完全に回復し、静的攻撃者に対して作成者識別 F1 スコアを 46\% 削減し、適応型攻撃者に対して 26\% 削減を達成しました。
私たちは、最大 70 億パラメータに及ぶ 6 つのオープンソースの大規模言語モデルにわたって広範な実験を実施し、プライバシーとユーティリティのトレードオフのさまざまな影響を分析しています。
要約(オリジナル)
Numerous studies have highlighted the privacy risks associated with pretrained large language models. In contrast, our research offers a unique perspective by demonstrating that pretrained large language models can effectively contribute to privacy preservation. We propose a locally differentially private mechanism called DP-Prompt, which leverages the power of pretrained large language models and zero-shot prompting to counter author de-anonymization attacks while minimizing the impact on downstream utility. When DP-Prompt is used with a powerful language model like ChatGPT (gpt-3.5), we observe a notable reduction in the success rate of de-anonymization attacks, showing that it surpasses existing approaches by a considerable margin despite its simpler design. For instance, in the case of the IMDB dataset, DP-Prompt (with ChatGPT) perfectly recovers the clean sentiment F1 score while achieving a 46\% reduction in author identification F1 score against static attackers and a 26\% reduction against adaptive attackers. We conduct extensive experiments across six open-source large language models, ranging up to 7 billion parameters, to analyze various effects of the privacy-utility tradeoff.
arxiv情報
著者 | Saiteja Utpala,Sara Hooker,Pin Yu Chen |
発行日 | 2023-11-30 18:13:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google