Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning

要約

大規模言語モデル (LLM) は、さまざまなドメインにわたる複雑なタスクに取り組むための強力なツールとして登場しましたが、機密データを微調整する場合、記憶される可能性があるため、プライバシーの懸念も生じます。
差分プライバシー (DP) は、特定のプライバシー単位の有無にかかわらずモデルが「ほとんど区別できない」ことを保証することで有望なソリューションを提供しますが、LLM の現在の評価では、ほとんどの場合、各例 (テキスト レコード) がプライバシー単位として扱われます。
これにより、ユーザーごとの貢献額が異なる場合、ユーザーのプライバシー保証が不均一になります。
したがって、私たちは、ユーザー全体で均一なプライバシー保護を確保する必要があるアプリケーションを動機とするユーザーレベルの DP を研究します。
自然言語生成タスクに対するユーザーレベルの DP for LLM 微調整の体系的な評価を示します。
ユーザーレベルの DP 保証を実現するための 2 つのメカニズム、グループ プライバシーとユーザーごとの DP-SGD に焦点を当て、プライバシーとユーティリティの最適なトレードオフを実現するためのデータ選択戦略やパラメーター調整などの設計上の選択を調査します。

要約(オリジナル)

Large language models (LLMs) have emerged as powerful tools for tackling complex tasks across diverse domains, but they also raise privacy concerns when fine-tuned on sensitive data due to potential memorization. While differential privacy (DP) offers a promising solution by ensuring models are ‘almost indistinguishable’ with or without any particular privacy unit, current evaluations on LLMs mostly treat each example (text record) as the privacy unit. This leads to uneven user privacy guarantees when contributions per user vary. We therefore study user-level DP motivated by applications where it necessary to ensure uniform privacy protection across users. We present a systematic evaluation of user-level DP for LLM fine-tuning on natural language generation tasks. Focusing on two mechanisms for achieving user-level DP guarantees, Group Privacy and User-wise DP-SGD, we investigate design choices like data selection strategies and parameter tuning for the best privacy-utility tradeoff.

arxiv情報

著者 Lynn Chua,Badih Ghazi,Yangsibo Huang,Pritish Kamath,Ravi Kumar,Daogao Liu,Pasin Manurangsi,Amer Sinha,Chiyuan Zhang
発行日 2024-08-16 15:02:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク