要約
プライバシー(DP)保護の下で表形式データを生成すると、理論的なプライバシーの保証が保証されますが、主に騒々しい監督信号の下で複雑な構造をキャプチャする必要があるため、機械学習モデルをトレーニングするための課題をもたらします。
最近、事前に訓練された大規模な言語モデル(LLMS) – GPT-2の規模のものでさえ、表形式データの合成に大きな可能性を示しています。
ただし、DPの制約に基づくアプリケーションは、ほとんど説明されていません。
この作業では、合成表形式データの生成にDP技術を適用することにより、このギャップに対処します。
私たちの調査結果は、プライバシーの予算がテーブル構造のような非プライベート要素に非効率的に割り当てられているため、DPで微調整されたときにLLMSがコヒーレントテキストを生成するのに困難に直面していることを示しています。
これを克服するために、差次的にプライベートな表形式のデータ生成のための2段階の微調整フレームワークであるDP-2ステージを提案します。
最初の段階では、擬似データセットで非プライベートの微調整を行い、その後、プライベートデータセットでDP微調整が行われます。
私たちの経験的結果は、このアプローチが、DPコンテキストで直接微調整されたLLMと比較して、さまざまな設定とメトリックのパフォーマンスを改善することを示しています。
https://github.com/tejuafonja/dp-2stageでコードとセットアップをリリースします。
要約(オリジナル)
Generating tabular data under differential privacy (DP) protection ensures theoretical privacy guarantees but poses challenges for training machine learning models, primarily due to the need to capture complex structures under noisy supervision signals. Recently, pre-trained Large Language Models (LLMs) — even those at the scale of GPT-2 — have demonstrated great potential in synthesizing tabular data. However, their applications under DP constraints remain largely unexplored. In this work, we address this gap by applying DP techniques to the generation of synthetic tabular data. Our findings shows that LLMs face difficulties in generating coherent text when fine-tuned with DP, as privacy budgets are inefficiently allocated to non-private elements like table structures. To overcome this, we propose DP-2Stage, a two-stage fine-tuning framework for differentially private tabular data generation. The first stage involves non-private fine-tuning on a pseudo dataset, followed by DP fine-tuning on a private dataset. Our empirical results show that this approach improves performance across various settings and metrics compared to directly fine-tuned LLMs in DP contexts. We release our code and setup at https://github.com/tejuafonja/DP-2Stage.
arxiv情報
著者 | Tejumade Afonja,Hui-Po Wang,Raouf Kerkouche,Mario Fritz |
発行日 | 2025-04-29 11:33:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google