Synthetic Text Generation with Differential Privacy: A Simple and Practical Recipe

要約

タイトル:ディファレンシャルプライバシーを用いた合成テキスト生成:簡単で実用的な手法

要約:
– データ駆動型製品において、機械学習モデルが機密性の高いトレーニングデータを記憶する傾向があるため、プライバシーに関する懸念が増している。
– ディファレンシャルプライバシー(DP)などの形式的なプライバシー保証を持つ合成データの生成は、このようなプライバシー問題を緩和するための有望な手段を提供するが、これまでのアプローチは高品質な合成データを生成できなかった。
– 本研究では、テキストドメインにおいて簡単で実用的な手法が効果的であることを示し、事前学習された生成言語モデルをDPで微調整するだけで、モデルが強力なプライバシー保護を提供しながら有用な合成テキストを生成できることを示します。
– ベンチマークとプライベートな顧客データの両方で広範な経験的分析を通じて、私たちの方法は、非プライベートなものと同等の実用性を持つ合成テキストを生成し、潜在的なプライバシーリークに対して強力な保護を提供することを示します。

要約(オリジナル)

Privacy concerns have attracted increasing attention in data-driven products due to the tendency of machine learning models to memorize sensitive training data. Generating synthetic versions of such data with a formal privacy guarantee, such as differential privacy (DP), provides a promising path to mitigating these privacy concerns, but previous approaches in this direction have typically failed to produce synthetic data of high quality. In this work, we show that a simple and practical recipe in the text domain is effective: simply fine-tuning a pretrained generative language model with DP enables the model to generate useful synthetic text with strong privacy protection. Through extensive empirical analyses on both benchmark and private customer data, we demonstrate that our method produces synthetic text that is competitive in terms of utility with its non-private counterpart, meanwhile providing strong protection against potential privacy leakages.

arxiv情報

著者 Xiang Yue,Huseyin A. Inan,Xuechen Li,Girish Kumar,Julia McAnallen,Hoda Shajari,Huan Sun,David Levitan,Robert Sim
発行日 2023-05-02 19:35:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CR パーマリンク