Private Synthetic Text Generation with Diffusion Models

要約

拡散モデルは合成テキストを生成する機能をどの程度備えていますか?
最近の研究では、そのパフォーマンスが自己回帰 LLM のパフォーマンスに達するという強みが示されています。
しかし、トレーニングが差分プライバシーの下で行われた場合、合成データの生成にも適しているのでしょうか?
ここでは証拠が欠けていますが、プライベート画像の生成による約束は強力であるように見えます。
この論文では、広範な実験によってこの未解決の疑問に対処します。
同時に、LLM を使用した合成プライベート テキスト生成に関する以前の研究を批判的に評価 (および再実装) し、差分プライバシー保証の違反につながる可能性のある満たされていない前提をいくつか明らかにします。
私たちの結果は部分的にこれまでの非プライベートな調査結果と矛盾しており、完全にオープンソースの LLM がプライバシー体制における拡散モデルよりも優れたパフォーマンスを発揮することを示しています。
当社の完全なソース コード、データセット、実験設定は、将来の研究を促進するために公開されています。

要約(オリジナル)

How capable are diffusion models of generating synthetics texts? Recent research shows their strengths, with performance reaching that of auto-regressive LLMs. But are they also good in generating synthetic data if the training was under differential privacy? Here the evidence is missing, yet the promises from private image generation look strong. In this paper we address this open question by extensive experiments. At the same time, we critically assess (and reimplement) previous works on synthetic private text generation with LLMs and reveal some unmet assumptions that might have led to violating the differential privacy guarantees. Our results partly contradict previous non-private findings and show that fully open-source LLMs outperform diffusion models in the privacy regime. Our complete source codes, datasets, and experimental setup is publicly available to foster future research.

arxiv情報

著者 Sebastian Ochs,Ivan Habernal
発行日 2024-10-30 12:38:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク