Domain Private Transformers

要約

大規模な汎用言語モデルは、さまざまな会話ドメインにわたって優れたパフォーマンスを実証しています。
マルチドメイン言語モデルは全体的な複雑性を低く抑えますが、その出力が特定の入力プロンプトのドメイン内に留まることが保証されません。
この論文では、条件付き言語モデルがドメイン間で漏洩する可能性を定量化する新しい方法として、ドメイン プライバシーを提案します。
また、トークンレベルのドメイン分類に基づいたポリシー関数を開発し、トレーニングされたモデルのドメインプライバシーを向上させるための効率的な微調整方法を提案します。
メンバーシップ推論攻撃の実験により、私たちが提案した方法は、差分プライベート言語モデルに関する最近の文献から適応された方法に匹敵する回復力を持っていることが示されています。

要約(オリジナル)

Large, general purpose language models have demonstrated impressive performance across many different conversational domains. While multi-domain language models achieve low overall perplexity, their outputs are not guaranteed to stay within the domain of a given input prompt. This paper proposes domain privacy as a novel way to quantify how likely a conditional language model will leak across domains. We also develop policy functions based on token-level domain classification, and propose an efficient fine-tuning method to improve the trained model’s domain privacy. Experiments on membership inference attacks show that our proposed method has comparable resiliency to methods adapted from recent literature on differentially private language models.

arxiv情報

著者 Anmol Kabra,Ethan R. Elenberg
発行日 2023-05-23 16:27:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク