Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage

要約

ダウンストリーム アプリケーションのプライベート データに基づいて大規模な言語モデルを微調整すると、機密情報が漏洩する可能性があり、重大なプライバシー リスクが生じます。
いくつかの人気のあるコミュニティ プラットフォームでは、さまざまな事前トレーニング済みモデルの便利な配布が提供されており、厳密な検証なしで誰でも公開できるようになりました。
事前トレーニングされたモデルは微調整データセットのプライバシーを侵害するように意図的に作成される可能性があるため、このシナリオではプライバシーの脅威が生じます。
この研究では、モデル非学習を攻撃ツールとして使用する新しいポイズニング手法を紹介します。
このアプローチでは、事前トレーニングされた言語モデルを操作して、微調整プロセス中の個人データの漏洩を増加させます。
私たちの方法は、モデルの有用性を維持しながら、メンバーシップ推論とデータ抽出攻撃の両方を強化します。
さまざまなモデル、データセット、微調整セットアップにわたる実験結果は、私たちの攻撃がベースラインのパフォーマンスを大幅に上回っていることを示しています。
この作業は、未検証のソースから事前トレーニングされたモデルをダウンロードするユーザーに対する警告として機能し、潜在的なリスクを強調しています。

要約(オリジナル)

Fine-tuning large language models on private data for downstream applications poses significant privacy risks in potentially exposing sensitive information. Several popular community platforms now offer convenient distribution of a large variety of pre-trained models, allowing anyone to publish without rigorous verification. This scenario creates a privacy threat, as pre-trained models can be intentionally crafted to compromise the privacy of fine-tuning datasets. In this study, we introduce a novel poisoning technique that uses model-unlearning as an attack tool. This approach manipulates a pre-trained language model to increase the leakage of private data during the fine-tuning process. Our method enhances both membership inference and data extraction attacks while preserving model utility. Experimental results across different models, datasets, and fine-tuning setups demonstrate that our attacks significantly surpass baseline performance. This work serves as a cautionary note for users who download pre-trained models from unverified sources, highlighting the potential risks involved.

arxiv情報

著者 Md Rafi Ur Rashid,Jing Liu,Toshiaki Koike-Akino,Shagufta Mehnaz,Ye Wang
発行日 2024-08-30 15:35:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク