Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data

要約

大規模な言語モデル(LLMS)は、さまざまなドメイン固有のタスクで大きな成功を示しており、そのパフォーマンスは微調整後に大幅に改善されることがよくあります。
ただし、実際のデータで微調整すると、プライバシーリスクが導入されます。
これらのリスクを軽減するために、開発者は、従来のモデルによって生成されたデータは実際のデータとは異なると考えられているため、実際のデータを使用する代わりに合成データ生成にますます依存しています。
ただし、LLMSの高度な機能により、これらのモデルによって生成された実際のデータとデータの区別は、ほとんど区別できなくなりました。
この収束は、生成されたデータの同様のプライバシーリスクを実際のデータに関連付けられているものに導入します。
私たちの研究では、LLM生成データを使用した微調整がプライバシーを真に強化するか、LLMSによって生成されたデータの構造的特性を調べ、2つの主要な微調整アプローチに焦点を当てて、追加のプライバシーリスクを導入するかどうかを調査しています。
Plain-Text)生成されたデータと自己インストラクションチューニング。
SFTのシナリオでは、データは以前の研究で使用されている特定の命令チューニング形式に配置されます。
Pythia Model Suiteで個人情報識別子(PII)の漏れとメンバーシップ推論攻撃(MIA)を使用し、プライバシーリスクを測定するために事前訓練を受けたトランス(OPT)を開きます。
特に、構造化されていない生成データで微調整した後、PythiaのPII抽出の成功率は20%以上増加し、そのようなアプローチの潜在的なプライバシーへの影響を強調しました。
さらに、スイートの2番目に大きなモデルであるPythia-6.9BのMIAのROC-AUCスコアは、自己インストラクションチューニング後に40%を超えて増加します。
我々の結果は、生成されたデータを使用してLLMを微調整することに関連する潜在的なプライバシーリスクを示しており、そのようなアプローチでプライバシー保護手段を慎重に検討する必要性を強調しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated significant success in various domain-specific tasks, with their performance often improving substantially after fine-tuning. However, fine-tuning with real-world data introduces privacy risks. To mitigate these risks, developers increasingly rely on synthetic data generation as an alternative to using real data, as data generated by traditional models is believed to be different from real-world data. However, with the advanced capabilities of LLMs, the distinction between real data and data generated by these models has become nearly indistinguishable. This convergence introduces similar privacy risks for generated data to those associated with real data. Our study investigates whether fine-tuning with LLM-generated data truly enhances privacy or introduces additional privacy risks by examining the structural characteristics of data generated by LLMs, focusing on two primary fine-tuning approaches: supervised fine-tuning (SFT) with unstructured (plain-text) generated data and self-instruct tuning. In the scenario of SFT, the data is put into a particular instruction tuning format used by previous studies. We use Personal Information Identifier (PII) leakage and Membership Inference Attacks (MIAs) on the Pythia Model Suite and Open Pre-trained Transformer (OPT) to measure privacy risks. Notably, after fine-tuning with unstructured generated data, the rate of successful PII extractions for Pythia increased by over 20%, highlighting the potential privacy implications of such approaches. Furthermore, the ROC-AUC score of MIAs for Pythia-6.9b, the second biggest model of the suite, increases over 40% after self-instruct tuning. Our results indicate the potential privacy risks associated with fine-tuning LLMs using generated data, underscoring the need for careful consideration of privacy safeguards in such approaches.

arxiv情報

著者 Atilla Akkus,Masoud Poorghaffar Aghdam,Mingjie Li,Junjie Chu,Michael Backes,Yang Zhang,Sinem Sav
発行日 2025-01-29 18:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク