On Active Privacy Auditing in Supervised Fine-tuning for White-Box Language Models

要約

事前トレーニングと微調整のアプローチは、さまざまな NLP アプリケーションの主要な手法となっています。
しかし、最近の研究では、データの微調整は、その機密性、ドメイン固有の特性、および識別可能性により、重大なプライバシー上の懸念を引き起こすことが明らかになりました。
よりプライバシーに強い微調整モデルの開発を支援するために、言語モデル (LM) の教師あり微調整 (SFT) 中にプライバシー漏洩リスクを特定して定量化するように設計された、パーシングと呼ばれる新しいアクティブ プライバシー監査フレームワークを導入します。
このフレームワークは、改良されたホワイトボックスメンバーシップ推論攻撃 (MIA) をコアテクノロジーとして利用し、新しい学習目標と 2 段階のパイプラインを利用して LM の微調整プロセスのプライバシーを監視し、プライバシー リスクの露出を最大化します。
さらに、GPT-2、Llama2、およびそれらの特定の亜種を含む大規模な LM での MIA の有効性が向上しました。
私たちの調査は、LM の SFT コミュニティに信頼性が高く、すぐに使用できるプライバシー監査ツールを提供し、微調整プロセス中のプライバシー保護に関する貴重な洞察を提供することを目的としています。
実験結果では、さまざまなモデルやタスクにわたるフレームワークの効率性が確認され、微調整プロセスにおけるプライバシーに関する顕著な懸念が強調されています。
プロジェクト コードは https://anonymous.4open.science/r/PARSING-4817/ で利用できます。

要約(オリジナル)

The pretraining and fine-tuning approach has become the leading technique for various NLP applications. However, recent studies reveal that fine-tuning data, due to their sensitive nature, domain-specific characteristics, and identifiability, pose significant privacy concerns. To help develop more privacy-resilient fine-tuning models, we introduce a novel active privacy auditing framework, dubbed Parsing, designed to identify and quantify privacy leakage risks during the supervised fine-tuning (SFT) of language models (LMs). The framework leverages improved white-box membership inference attacks (MIAs) as the core technology, utilizing novel learning objectives and a two-stage pipeline to monitor the privacy of the LMs’ fine-tuning process, maximizing the exposure of privacy risks. Additionally, we have improved the effectiveness of MIAs on large LMs including GPT-2, Llama2, and certain variants of them. Our research aims to provide the SFT community of LMs with a reliable, ready-to-use privacy auditing tool, and to offer valuable insights into safeguarding privacy during the fine-tuning process. Experimental results confirm the framework’s efficiency across various models and tasks, emphasizing notable privacy concerns in the fine-tuning process. Project code available for https://anonymous.4open.science/r/PARSING-4817/.

arxiv情報

著者 Qian Sun,Hanpeng Wu,Xi Sheryl Zhang
発行日 2024-11-12 04:12:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク