Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning

要約

大規模言語モデル(LLM)は、多様な領域にわたる複雑なタスクに取り組むための強力なツールとして登場したが、潜在的な記憶により、機密性の高いデータで微調整を行う際にプライバシーに関する懸念も生じる。差分プライバシー(DP)は、特定のプライバシー単位があってもなくてもモデルが「ほとんど区別できない」ことを保証することで、有望な解決策を提供するが、LLMに関する現在の評価では、ほとんどの場合、各例(テキストレコード)をプライバシー単位として扱う。これは、ユーザごとの貢献が異なる場合、ユーザのプライバシー保証が不均一になることにつながる。そこで我々は、ユーザー間で一様なプライバシー保護を保証する必要があるアプリケーションを動機としたユーザーレベルDPを研究する。自然言語生成タスクにおけるLLMファインチューニングのためのユーザレベルDPの系統的評価を行う。ユーザレベルDP保証を実現する2つのメカニズム、グループプライバシーとユーザワイズDP-SGDに焦点を当て、最良のプライバシーとユーティリティのトレードオフのためのデータ選択戦略やパラメータチューニングのような設計上の選択を調査する。

要約(オリジナル)

Large language models (LLMs) have emerged as powerful tools for tackling complex tasks across diverse domains, but they also raise privacy concerns when fine-tuned on sensitive data due to potential memorization. While differential privacy (DP) offers a promising solution by ensuring models are ‘almost indistinguishable’ with or without any particular privacy unit, current evaluations on LLMs mostly treat each example (text record) as the privacy unit. This leads to uneven user privacy guarantees when contributions per user vary. We therefore study user-level DP motivated by applications where it necessary to ensure uniform privacy protection across users. We present a systematic evaluation of user-level DP for LLM fine-tuning on natural language generation tasks. Focusing on two mechanisms for achieving user-level DP guarantees, Group Privacy and User-wise DP-SGD, we investigate design choices like data selection strategies and parameter tuning for the best privacy-utility tradeoff.

arxiv情報

著者 Lynn Chua,Badih Ghazi,Yangsibo Huang,Pritish Kamath,Ravi Kumar,Daogao Liu,Pasin Manurangsi,Amer Sinha,Chiyuan Zhang
発行日 2024-07-03 14:05:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク